Дата публикации
ai_products

Xiaomi выводит свои ИИ-модели в «эру агентов»: MiMo-V2-Pro, MiMo-V2-Omni и MiMo-V2-TTS

Что появилось / что изменилось

Xiaomi представила сразу три новые модели ИИ: MiMo-V2-Pro, MiMo-V2-Omni и MiMo-V2-TTS.

Все три уже работают внутри экосистемы Xiaomi:

  • MiMo Studio
  • Xiaomi Browser
  • офисный пакет Kingsoft Office / WPS Office

Плюс доступ через инструменты для разработчиков:

  • OpenClaw
  • OpenCode
  • Cline

Для разработчиков Xiaomi даёт бесплатную пробную неделю.

Главная новинка — MiMo-V2-Pro:

  • флагманская модель для «эры агентов»
  • больше 1 ТБ параметров
  • контекстное окно 1 МБ
  • рассчитана на ресурсоёмкие задачи и долгие сессии
  • умеет выстраивать рабочие процессы и долгосрочные планы без постоянного участия человека

Xiaomi заявляет, что по производительности MiMo-V2-Pro близка к Claude Opus 4.6, но стоит дешевле при работе через API:

  • от 1 доллара за миллион токенов на входе для небольших контекстов
  • цена растёт при увеличении контекста

MiMo-V2-Pro уже встроена в WPS Office от Kingsoft и работает с:

  • Word-документами
  • таблицами Excel
  • презентациями PowerPoint
  • PDF-файлами

MiMo-V2-Omni ориентирована на мультимодальные задачи:

  • одновременно обрабатывает аудио, изображения и видео
  • поддерживает длинные аудиовходы и несколько говорящих
  • умеет комбинировать анализ звука и картинки в одном запросе

Xiaomi утверждает, что в части распознавания звука MiMo-V2-Omni в ряде сценариев превосходит Gemini 3 Pro.

MiMo-V2-TTS — модель синтеза речи:

  • настраиваемые тон, эмоции и стиль
  • работает как с обычной речью, так и с пением
  • поддерживает несколько китайских диалектов

До этого Xiaomi уже выпускала MiMo — крупную языковую модель с открытым исходным кодом, ориентированную на задачи логики и математики.

Как это работает

MiMo-V2-Pro — это крупная языковая модель с параметрами свыше 1 ТБ. Такой размер позволяет держать в голове сложный контекст и много связанных задач. Контекстное окно 1 МБ даёт возможность скормить ей целый рабочий день переписки, большой документ или цепочку задач и не дробить это на части.

Модель заточена под агентские сценарии. Проще говоря, MiMo-V2-Pro можно использовать как «двигатель» для цифрового ассистента, который сам:

  • разбивает цель на шаги
  • планирует последовательность действий
  • возвращается к старым данным внутри одного длинного контекста

MiMo-V2-Omni строится вокруг общей мультимодальной репрезентации. Это значит, что текст, звук, изображение и видео приводятся к единому внутреннему представлению. За счёт этого модель может, например, одновременно анализировать разговор и картинку с камеры, или видео и его звуковую дорожку.

Поддержка длинных аудиовходов и нескольких говорящих важна для разборов совещаний, подкастов, лекций. Модель не обрывается на середине и не путает спикеров.

MiMo-V2-TTS — генеративная модель речи. Внутри она разделяет контент (что сказать) и просодию (как сказать). За счёт этого можно отдельно крутить:

  • эмоциональность
  • скорость
  • высоту голоса
  • манеру речи (ближе к дикторской или разговорной)

Поддержка пения говорит о том, что модель умеет управлять высотой и длительностью звука на уровне нот, а не только фраз.

Что это значит для вас

MiMo-V2-Pro подойдёт, если вы:

  • строите своего ассистента или «агента», который должен самостоятельно выполнять цепочки задач
  • автоматизируете офисные процессы в экосистеме Xiaomi или WPS Office
  • работаете с большими документами, где важен длинный контекст (контракты, отчёты, техническая документация)
  • хотите снизить стоимость API по сравнению с топовыми западными моделями

Где MiMo-V2-Pro будет полезна:

  • разбор и структурирование больших документов в WPS Office
  • составление планов проектов и дорожных карт
  • автоматическая подготовка отчётов по входящим данным

Где лучше не рассчитывать только на неё:

  • юридически значимые документы без финальной проверки человеком
  • критичные медицинские и финансовые решения

MiMo-V2-Omni имеет смысл, если вам нужно:

  • расшифровывать и анализировать длинные встречи, лекции, подкасты
  • обрабатывать видео с одновременным анализом картинки и звука
  • строить продукты вокруг мультимедийного контента, а не только текста

MiMo-V2-Omni вряд ли нужна, если вы решаете только текстовые задачи вроде переписки или простых запросов в стиле «ответь на письмо».

MiMo-V2-TTS пригодится для:

  • озвучки контента на китайском языке (включая диалекты)
  • создания голосовых ассистентов и ботов
  • генерации вокальных партий для демо-треков и прототипов

Если вы работаете в основном с русским или английским голосовым контентом, MiMo-V2-TTS сейчас выглядит скорее как инструмент для нишевых задач, связанных с Китаем.

Доступность для России Xiaomi не раскрывает. С высокой вероятностью для стабильной работы API и сервисов понадобится обход региональных ограничений и готовность к возможным блокировкам. Перед интеграцией в продукт стоит проверить доступ из вашей инфраструктуры и юридические риски.

Место на рынке

Xiaomi явно нацелилась на сегмент, где уже играют Claude Opus 4.6, Gemini 3 Pro и Grok от xAI.

По заявлениям Xiaomi:

  • MiMo-V2-Pro по качеству близка к Claude Opus 4.6, но заметно дешевле при работе через API — от 1 доллара за миллион токенов на входе для небольших контекстов
  • MiMo-V2-Omni в части распознавания звука в ряде сценариев превосходит Gemini 3 Pro

Xiaomi делает ставку на две вещи:

  1. Глубокая интеграция в экосистему: смартфоны, браузер Xiaomi, MiMo Studio, WPS Office. Это удобно, если вы уже живёте в продуктах Xiaomi и Kingsoft.
  2. Цена API: заявленная стоимость выглядит агрессивной на фоне западных моделей того же класса.

Минусы на фоне конкурентов:

  • фокус на китайском языке и диалектах, особенно в MiMo-V2-TTS
  • отсутствие прозрачных кросс-языковых бенчмарков по русскому и английскому
  • возможные ограничения доступа из России

Если вы делаете глобальный продукт на русском или английском, MiMo-V2 сейчас скорее кандидат для пилотов и экспериментов. Если вы работаете с китайской аудиторией и уже используете экосистему Xiaomi или WPS Office, новые модели выглядят логичным следующим шагом для автоматизации и внедрения ИИ-агентов.


Читайте также

Xiaomi выводит свои ИИ-модели в «эру агентов»: MiMo-V2-Pro, MiMo-V2-Omni и MiMo-V2-TTS — VogueTech | VogueTech