Три новых open-source модели в Microsoft Foundry: для речи, кода и поиска — VogueTech

Что появилось / что изменилось

Microsoft Foundry добавила три open-source модели из экосистемы Hugging Face, которые закрывают сразу три слоя AI-стека:

Cohere Transcribe (cohere-transcribe-03-2026)
- 2 млрд параметров.
- Задача: автоматическое распознавание речи (ASR, audio-to-text).
- Первое место в Open ASR Leaderboard среди открытых моделей.
- Средний Word Error Rate (WER) по 8 англоязычным бенчмаркам: 5,42% (данные на 26 марта 2026 года).
- LibriSpeech Clean: 1,25% WER.
- AMI (записи совещаний): 8,15% WER.
- Поддержка 14 языков: европейские, китайский (мандарин), японский, корейский, вьетнамский, арабский.
- Автоматическая нарезка длинного аудио: всё, что дольше 35 секунд, модель делит на пересекающиеся куски и склеивает обратно в цельный текст.
- Есть батч-инференс, настройка пунктуации и параметры для каждого языка через API.
Nanbeige4.1-3B от Nanbeige
- 3 млрд параметров.
- Контекст: 131 072 токена.
- Задачи: генерация текста, рассуждение, код, работа с инструментами и глубокий поиск.
- LiveCodeBench-V6: 76,9 — для 3B это уровень, который обычно показывают модели существенно крупнее.
- Arena-Hard-v2 (оценка предпочтений людей): 73,2. Для сравнения: Qwen3-32B — 56,0, Qwen3-30B-A3B — 60,2. Nanbeige4.1-3B меньше по параметрам, но даёт более предпочтительные ответы.
- xBench-DeepSearch-2505: 75 — на уровне специализированных малых search-агентов.
- Поддерживает сложные агентные сценарии с 500+ последовательными вызовами инструментов.
Octen-Embedding-0.6B от Octen
- 0,6 млрд параметров.
- Задача: текстовые эмбеддинги для поиска и рекомендаций.
- Хорошие показатели извлечения релевантных документов более чем в 100 языках и в отраслевых доменах (финансы, медицина и другие).

Все три модели доступны через Microsoft Foundry и могут работать в одном пайплайне: от аудио до поиска по тексту.

Как это работает

Cohere Transcribe строится на связке большого Conformer-энкодера и лёгкого Transformer-декодера.
Conformer вытаскивает из аудиосигнала акустические признаки, а Transformer превращает их в текстовые токены.
Модель училась с нуля на 14 языках, а не дообучалась из общего языкового трансформера, поэтому не тащит лишний балласт и остаётся компактной при высокой точности.

Для длинных записей Cohere Transcribe автоматически режет звук на куски длиннее 35 секунд с перекрытием, расшифровывает каждый, а затем собирает итоговую расшифровку.
Это снижает провалы на стыках фрагментов и убирает ручную предобработку аудио.

Nanbeige4.1-3B — небольшой трансформер, который команда Nanbeige доучила не только Supervised Fine-Tuning, но и Reinforcement Learning на целевом датасете.
Ставка на качественный пост-тренинг позволяет выжать из 3 млрд параметров поведение, которое обычно ожидают от моделей на порядок крупнее.
Фокус — на рассуждении, коде и управлении инструментами: модель уверенно держит длинные цепочки запросов к API и поиску, не «рассыпаясь» по ходу диалога.

Octen-Embedding-0.6B — компактный трансформер для генерации векторных представлений текста.
Модель обучали на задачах извлечения релевантных документов в большом количестве языков и доменов, поэтому она даёт эмбеддинги, которые хорошо работают и в мультилингвальном, и в отраслевом поиске.
Размер 0,6B позволяет запускать её на более доступном железе и всё равно держать качество поиска.

Что это значит для вас

Эта тройка покрывает типичный enterprise-сценарий «звонок — анализ — поиск по базе» без закрытых API.

Когда полезен Cohere Transcribe:

Расшифровка совещаний и созвонов. Можно отправить запись, получить таймкоды по репликам и дальше прогонять через аналитические модели.
Контроль качества call-центра. Сначала — массовая транскрибация звонков, потом — классификация по тональности, жалобам, нарушениям скрипта.
Медицинские и юридические диктовки. Врач или юрист говорит в диктофон, дальше текст уходит в пайплайн суммаризации или структурирования.
Индексация мультиязычного контента: подкасты, лекции, видео на 14 языках превращаются в текст, который можно искать и анализировать.

Если вам критична поддержка редких языков или диалектов за пределами заявленных 14, Cohere Transcribe может не закрыть все кейсы.

Когда выбирать Nanbeige4.1-3B:

Нужен разумный баланс между качеством рассуждений и ценой инференса. 3B можно запускать на более скромных GPU.
Вы строите ассистента для кода, аналитики или поиска, где важна логика, а не только генерация текста.
Важна предсказуемость и «человечность» ответов: по Arena-Hard-v2 Nanbeige4.1-3B ближе к тому, что люди считают полезным, чем более крупные Qwen3-32B и Qwen3-30B-A3B.

Если вы решаете задачи уровня сложных научных исследований или креативного письма на уровне GPT-4o или Claude 3.5, 3B может не хватить — она оптимальна для утилитарных, повторяемых задач.

Когда нужен Octen-Embedding-0.6B:

Построение поисковых систем и RAG-сценариев на десятках языков.
Корпоративный поиск по документам: договоры, регламенты, отчёты в разных форматах и на разных языках.
Каталоги и рекомендации, где важна семантика описаний, а не только ключевые слова.

Если вы строите поиск с миллиардами документов и очень жёсткими требованиями по качеству ранжирования, возможно, придётся сравнивать Octen-Embedding-0.6B с более тяжёлыми эмбеддинг-моделями.

Доступность Microsoft Foundry в России может зависеть от корпоративной инфраструктуры, юрисдикции и VPN. Для продакшн-проектов это нужно проверять заранее с юристами и IT-безопасностью.

Место на рынке

Cohere Transcribe сейчас держит первое место среди открытых ASR-моделей в Open ASR Leaderboard с 5,42% WER по 8 англоязычным датасетам.
Показатели 1,25% WER на LibriSpeech Clean и 8,15% WER на AMI показывают, что модель уверенно держится и на «лабораторной» речи, и на шумных встречах с несколькими спикерами.
Для команд, которые раньше смотрели только в сторону закрытых ASR-сервисов, это серьёзный аргумент в пользу open-source-стека.

Nanbeige4.1-3B интересен тем, что по метрике человеческих предпочтений (Arena-Hard-v2) 73,2 у 3B-модели обгоняет Qwen3-32B (56,0) и Qwen3-30B-A3B (60,2).
То есть на уровне user experience она ближе к старшим моделям, но при этом дешевле в запуске и масштабировании за счёт меньшего размера.
По LiveCodeBench-V6 (76,9) она показывает, что маленькие модели с хорошим пост-тренингом могут конкурировать с более крупными в коде и рассуждении.

Octen-Embedding-0.6B играет в нише мультилингвальных эмбеддингов.
Фокус — не на максимальных цифрах в одном языке, а на стабильном качестве извлечения по 100+ языкам и отраслевым доменам при умеренном размере модели.
Для компаний, которые строят глобальные поисковые и RAG-сервисы и хотят остаться в open-source, это практичный вариант без необходимости держать тяжёлые модели на каждый язык отдельно.

Главное: все три модели можно собрать в единый пайплайн прямо в Microsoft Foundry — от расшифровки аудио до глубокого поиска по тексту. Для продуктовых команд это способ протестировать полностью открытый стек без привязки к одному вендору закрытых API.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также