- Дата публикации
Xiaomi выводит свои ИИ-модели в «эру агентов»: MiMo-V2-Pro, MiMo-V2-Omni и MiMo-V2-TTS
Что появилось / что изменилось
Xiaomi представила сразу три новые модели ИИ: MiMo-V2-Pro, MiMo-V2-Omni и MiMo-V2-TTS.
Все три уже работают внутри экосистемы Xiaomi:
- MiMo Studio
- Xiaomi Browser
- офисный пакет Kingsoft Office / WPS Office
Плюс доступ через инструменты для разработчиков:
- OpenClaw
- OpenCode
- Cline
Для разработчиков Xiaomi даёт бесплатную пробную неделю.
Главная новинка — MiMo-V2-Pro:
- флагманская модель для «эры агентов»
- больше 1 ТБ параметров
- контекстное окно 1 МБ
- рассчитана на ресурсоёмкие задачи и долгие сессии
- умеет выстраивать рабочие процессы и долгосрочные планы без постоянного участия человека
Xiaomi заявляет, что по производительности MiMo-V2-Pro близка к Claude Opus 4.6, но стоит дешевле при работе через API:
- от 1 доллара за миллион токенов на входе для небольших контекстов
- цена растёт при увеличении контекста
MiMo-V2-Pro уже встроена в WPS Office от Kingsoft и работает с:
- Word-документами
- таблицами Excel
- презентациями PowerPoint
- PDF-файлами
MiMo-V2-Omni ориентирована на мультимодальные задачи:
- одновременно обрабатывает аудио, изображения и видео
- поддерживает длинные аудиовходы и несколько говорящих
- умеет комбинировать анализ звука и картинки в одном запросе
Xiaomi утверждает, что в части распознавания звука MiMo-V2-Omni в ряде сценариев превосходит Gemini 3 Pro.
MiMo-V2-TTS — модель синтеза речи:
- настраиваемые тон, эмоции и стиль
- работает как с обычной речью, так и с пением
- поддерживает несколько китайских диалектов
До этого Xiaomi уже выпускала MiMo — крупную языковую модель с открытым исходным кодом, ориентированную на задачи логики и математики.
Как это работает
MiMo-V2-Pro — это крупная языковая модель с параметрами свыше 1 ТБ. Такой размер позволяет держать в голове сложный контекст и много связанных задач. Контекстное окно 1 МБ даёт возможность скормить ей целый рабочий день переписки, большой документ или цепочку задач и не дробить это на части.
Модель заточена под агентские сценарии. Проще говоря, MiMo-V2-Pro можно использовать как «двигатель» для цифрового ассистента, который сам:
- разбивает цель на шаги
- планирует последовательность действий
- возвращается к старым данным внутри одного длинного контекста
MiMo-V2-Omni строится вокруг общей мультимодальной репрезентации. Это значит, что текст, звук, изображение и видео приводятся к единому внутреннему представлению. За счёт этого модель может, например, одновременно анализировать разговор и картинку с камеры, или видео и его звуковую дорожку.
Поддержка длинных аудиовходов и нескольких говорящих важна для разборов совещаний, подкастов, лекций. Модель не обрывается на середине и не путает спикеров.
MiMo-V2-TTS — генеративная модель речи. Внутри она разделяет контент (что сказать) и просодию (как сказать). За счёт этого можно отдельно крутить:
- эмоциональность
- скорость
- высоту голоса
- манеру речи (ближе к дикторской или разговорной)
Поддержка пения говорит о том, что модель умеет управлять высотой и длительностью звука на уровне нот, а не только фраз.
Что это значит для вас
MiMo-V2-Pro подойдёт, если вы:
- строите своего ассистента или «агента», который должен самостоятельно выполнять цепочки задач
- автоматизируете офисные процессы в экосистеме Xiaomi или WPS Office
- работаете с большими документами, где важен длинный контекст (контракты, отчёты, техническая документация)
- хотите снизить стоимость API по сравнению с топовыми западными моделями
Где MiMo-V2-Pro будет полезна:
- разбор и структурирование больших документов в WPS Office
- составление планов проектов и дорожных карт
- автоматическая подготовка отчётов по входящим данным
Где лучше не рассчитывать только на неё:
- юридически значимые документы без финальной проверки человеком
- критичные медицинские и финансовые решения
MiMo-V2-Omni имеет смысл, если вам нужно:
- расшифровывать и анализировать длинные встречи, лекции, подкасты
- обрабатывать видео с одновременным анализом картинки и звука
- строить продукты вокруг мультимедийного контента, а не только текста
MiMo-V2-Omni вряд ли нужна, если вы решаете только текстовые задачи вроде переписки или простых запросов в стиле «ответь на письмо».
MiMo-V2-TTS пригодится для:
- озвучки контента на китайском языке (включая диалекты)
- создания голосовых ассистентов и ботов
- генерации вокальных партий для демо-треков и прототипов
Если вы работаете в основном с русским или английским голосовым контентом, MiMo-V2-TTS сейчас выглядит скорее как инструмент для нишевых задач, связанных с Китаем.
Доступность для России Xiaomi не раскрывает. С высокой вероятностью для стабильной работы API и сервисов понадобится обход региональных ограничений и готовность к возможным блокировкам. Перед интеграцией в продукт стоит проверить доступ из вашей инфраструктуры и юридические риски.
Место на рынке
Xiaomi явно нацелилась на сегмент, где уже играют Claude Opus 4.6, Gemini 3 Pro и Grok от xAI.
По заявлениям Xiaomi:
- MiMo-V2-Pro по качеству близка к Claude Opus 4.6, но заметно дешевле при работе через API — от 1 доллара за миллион токенов на входе для небольших контекстов
- MiMo-V2-Omni в части распознавания звука в ряде сценариев превосходит Gemini 3 Pro
Xiaomi делает ставку на две вещи:
- Глубокая интеграция в экосистему: смартфоны, браузер Xiaomi, MiMo Studio, WPS Office. Это удобно, если вы уже живёте в продуктах Xiaomi и Kingsoft.
- Цена API: заявленная стоимость выглядит агрессивной на фоне западных моделей того же класса.
Минусы на фоне конкурентов:
- фокус на китайском языке и диалектах, особенно в MiMo-V2-TTS
- отсутствие прозрачных кросс-языковых бенчмарков по русскому и английскому
- возможные ограничения доступа из России
Если вы делаете глобальный продукт на русском или английском, MiMo-V2 сейчас скорее кандидат для пилотов и экспериментов. Если вы работаете с китайской аудиторией и уже используете экосистему Xiaomi или WPS Office, новые модели выглядят логичным следующим шагом для автоматизации и внедрения ИИ-агентов.