Xiaomi выводит свои ИИ-модели в «эру агентов»: MiMo-V2-Pro, MiMo-V2-Omni и MiMo-V2-TTS — VogueTech

Что появилось / что изменилось

Xiaomi представила сразу три новые модели ИИ: MiMo-V2-Pro, MiMo-V2-Omni и MiMo-V2-TTS.

Все три уже работают внутри экосистемы Xiaomi:

MiMo Studio
Xiaomi Browser
офисный пакет Kingsoft Office / WPS Office

Плюс доступ через инструменты для разработчиков:

OpenClaw
OpenCode
Cline

Для разработчиков Xiaomi даёт бесплатную пробную неделю.

Главная новинка — MiMo-V2-Pro:

флагманская модель для «эры агентов»
больше 1 ТБ параметров
контекстное окно 1 МБ
рассчитана на ресурсоёмкие задачи и долгие сессии
умеет выстраивать рабочие процессы и долгосрочные планы без постоянного участия человека

Xiaomi заявляет, что по производительности MiMo-V2-Pro близка к Claude Opus 4.6, но стоит дешевле при работе через API:

от 1 доллара за миллион токенов на входе для небольших контекстов
цена растёт при увеличении контекста

MiMo-V2-Pro уже встроена в WPS Office от Kingsoft и работает с:

Word-документами
таблицами Excel
презентациями PowerPoint
PDF-файлами

MiMo-V2-Omni ориентирована на мультимодальные задачи:

одновременно обрабатывает аудио, изображения и видео
поддерживает длинные аудиовходы и несколько говорящих
умеет комбинировать анализ звука и картинки в одном запросе

Xiaomi утверждает, что в части распознавания звука MiMo-V2-Omni в ряде сценариев превосходит Gemini 3 Pro.

MiMo-V2-TTS — модель синтеза речи:

настраиваемые тон, эмоции и стиль
работает как с обычной речью, так и с пением
поддерживает несколько китайских диалектов

До этого Xiaomi уже выпускала MiMo — крупную языковую модель с открытым исходным кодом, ориентированную на задачи логики и математики.

Как это работает

MiMo-V2-Pro — это крупная языковая модель с параметрами свыше 1 ТБ. Такой размер позволяет держать в голове сложный контекст и много связанных задач. Контекстное окно 1 МБ даёт возможность скормить ей целый рабочий день переписки, большой документ или цепочку задач и не дробить это на части.

Модель заточена под агентские сценарии. Проще говоря, MiMo-V2-Pro можно использовать как «двигатель» для цифрового ассистента, который сам:

разбивает цель на шаги
планирует последовательность действий
возвращается к старым данным внутри одного длинного контекста

MiMo-V2-Omni строится вокруг общей мультимодальной репрезентации. Это значит, что текст, звук, изображение и видео приводятся к единому внутреннему представлению. За счёт этого модель может, например, одновременно анализировать разговор и картинку с камеры, или видео и его звуковую дорожку.

Поддержка длинных аудиовходов и нескольких говорящих важна для разборов совещаний, подкастов, лекций. Модель не обрывается на середине и не путает спикеров.

MiMo-V2-TTS — генеративная модель речи. Внутри она разделяет контент (что сказать) и просодию (как сказать). За счёт этого можно отдельно крутить:

эмоциональность
скорость
высоту голоса
манеру речи (ближе к дикторской или разговорной)

Поддержка пения говорит о том, что модель умеет управлять высотой и длительностью звука на уровне нот, а не только фраз.

Что это значит для вас

MiMo-V2-Pro подойдёт, если вы:

строите своего ассистента или «агента», который должен самостоятельно выполнять цепочки задач
автоматизируете офисные процессы в экосистеме Xiaomi или WPS Office
работаете с большими документами, где важен длинный контекст (контракты, отчёты, техническая документация)
хотите снизить стоимость API по сравнению с топовыми западными моделями

Где MiMo-V2-Pro будет полезна:

разбор и структурирование больших документов в WPS Office
составление планов проектов и дорожных карт
автоматическая подготовка отчётов по входящим данным

Где лучше не рассчитывать только на неё:

юридически значимые документы без финальной проверки человеком
критичные медицинские и финансовые решения

MiMo-V2-Omni имеет смысл, если вам нужно:

расшифровывать и анализировать длинные встречи, лекции, подкасты
обрабатывать видео с одновременным анализом картинки и звука
строить продукты вокруг мультимедийного контента, а не только текста

MiMo-V2-Omni вряд ли нужна, если вы решаете только текстовые задачи вроде переписки или простых запросов в стиле «ответь на письмо».

MiMo-V2-TTS пригодится для:

озвучки контента на китайском языке (включая диалекты)
создания голосовых ассистентов и ботов
генерации вокальных партий для демо-треков и прототипов

Если вы работаете в основном с русским или английским голосовым контентом, MiMo-V2-TTS сейчас выглядит скорее как инструмент для нишевых задач, связанных с Китаем.

Доступность для России Xiaomi не раскрывает. С высокой вероятностью для стабильной работы API и сервисов понадобится обход региональных ограничений и готовность к возможным блокировкам. Перед интеграцией в продукт стоит проверить доступ из вашей инфраструктуры и юридические риски.

Место на рынке

Xiaomi явно нацелилась на сегмент, где уже играют Claude Opus 4.6, Gemini 3 Pro и Grok от xAI.

По заявлениям Xiaomi:

MiMo-V2-Pro по качеству близка к Claude Opus 4.6, но заметно дешевле при работе через API — от 1 доллара за миллион токенов на входе для небольших контекстов
MiMo-V2-Omni в части распознавания звука в ряде сценариев превосходит Gemini 3 Pro

Xiaomi делает ставку на две вещи:

Глубокая интеграция в экосистему: смартфоны, браузер Xiaomi, MiMo Studio, WPS Office. Это удобно, если вы уже живёте в продуктах Xiaomi и Kingsoft.
Цена API: заявленная стоимость выглядит агрессивной на фоне западных моделей того же класса.

Минусы на фоне конкурентов:

фокус на китайском языке и диалектах, особенно в MiMo-V2-TTS
отсутствие прозрачных кросс-языковых бенчмарков по русскому и английскому
возможные ограничения доступа из России

Если вы делаете глобальный продукт на русском или английском, MiMo-V2 сейчас скорее кандидат для пилотов и экспериментов. Если вы работаете с китайской аудиторией и уже используете экосистему Xiaomi или WPS Office, новые модели выглядят логичным следующим шагом для автоматизации и внедрения ИИ-агентов.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также