Cohere Transcribe: открытая голосовая модель для расшифровки речи с потребительских GPU — VogueTech

Что появилось / что изменилось

Cohere представила свой первый голосовой продукт — модель распознавания речи Transcribe. Это open-source модель автоматического распознавания речи (ASR), ориентированная именно на транскрибацию: заметки, протоколы встреч, анализ звонков, диктовка.

Ключевые факты:

Размер модели — 2 млрд параметров. Это относительно компактно для self-hosting на потребительских GPU.
Поддерживаемые языки (14 штук): английский, французский, немецкий, итальянский, испанский, португальский, греческий, нидерландский, польский, китайский, японский, корейский, вьетнамский и арабский.
Средний показатель качества: word error rate (WER) 5,42 на бенчмарке Hugging Face Open ASR — по данным Cohere, это лучший результат среди представленных там моделей.
Transcribe обгоняет на этом лидерборде Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 и Qwen3-ASR-1.7B Speech.
По оценкам человеческих ревьюеров, Transcribe выигрывает у других моделей в 61% парных сравнений по точности, связности и удобству текста.
Слабые места: хуже конкурентов на португальском, немецком и испанском.
Скорость: до 525 минут аудио за одну минуту обработки — очень высокая производительность для модели такого класса.
Доступность: модель открыта, её можно развернуть у себя. Cohere также даёт доступ через API бесплатно и через свой managed-сервис Model Valut.
В планах — встроить Transcribe в корпоративную платформу оркестрации агентов Cohere North.

Как это работает

Transcribe — это языково-аудиальная модель автоматического распознавания речи с 2 млрд параметров. Такой размер позволяет запускать её не только в облаке Cohere, но и на относительно доступных видеокартах без дата-центра.

Схема работы стандартная для современных ASR-систем:

На вход подаётся аудиопоток или файл.
Модель переводит звуковой сигнал в текстовую расшифровку в одном из поддерживаемых языков.
Результат можно использовать дальше в пайплайне: поиск по тексту, анализ тональности, извлечение сущностей, генерация конспекта.

Cohere замеряет качество Transcribe по word error rate на открытом лидерборде Hugging Face Open ASR и дополнительно валидирует модель с помощью человеческих оценок. Это даёт понимание не только «сухой» ошибки по словам, но и субъективного качества: насколько расшифровка читаема и полезна.

Скорость 525 минут аудио за минуту означает, что вы можете прогнать, например, недельный архив созвонов за несколько минут на подходящем железе или через managed-сервис Cohere.

Что это значит для вас

Если вы строите продукт вокруг голоса — Transcribe закрывает типовые задачи:

Авторасшифровка созвонов в Zoom/Meet/Teams.
Заметки по голосу для личных и рабочих задач.
Аналитика звонков в кол-центре и продажах: качество сервиса, частые вопросы, сценарии общения.
Подготовка текстовых архивов из подкастов, вебинаров, обучающих видео.

Когда Transcribe особенно полезна:

Вам нужно развернуть ASR on-premise или в своём облаке, а не отдавать аудио внешним провайдерам.
Важна скорость пакетной обработки больших объёмов аудио.
Вы ориентируетесь на многоязычную аудиторию, включая азиатские языки (китайский, японский, корейский) и арабский.

Когда модель может не подойти:

Критичный язык — португальский, немецкий или испанский, а качество стенограмм важнее всего. По этим языкам конкуренты у Cohere сейчас сильнее.
Вам нужен не только текст, но и сразу глубокий смысловой разбор (длинные резюме, сложная аналитика). Transcribe даёт текст; для аналитики придётся добавлять LLM и собственный пайплайн.
Ваша аудитория русскоязычная. Русского в списке поддерживаемых языков нет, придётся использовать другие решения или ждать расширения.

Cohere даёт бесплатный доступ через API. Но для пользователей из России могут потребоваться VPN и работа через зарубежную инфраструктуру — как и с большинством западных AI-сервисов. Если вы запускаете Transcribe локально как open-source модель, доступа к сервисам Cohere не нужно, но придётся подготовить своё железо и обеспечить MLOps.

Место на рынке

Transcribe Cohere сразу заходит в сегмент, где уже активно работают Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 и Qwen3-ASR-1.7B Speech. По данным Hugging Face Open ASR, Transcribe показывает лучший средний WER — 5,42, то есть в среднем ошибается реже конкурентов на этом бенчмарке.

Дополнительный аргумент — человеческие оценки: Transcribe выигрывает в 61% парных сравнений по точности и удобству чтения. Это важно для реального продукта, где сухой WER не всегда отражает, насколько стенограмма понятна человеку.

Снижение качества на португальском, немецком и испанском — заметный минус для глобальных продуктов, которые работают в Европе и Латинской Америке. В этих регионах может потребоваться смешанный стек: Transcribe для одних языков и другие модели для проблемных.

Скорость 525 минут аудио за минуту делает Transcribe интересной для компаний, которые регулярно прогоняют огромные архивы: юридические службы, медиа, образовательные платформы. На этом фоне более тяжёлые модели могут давать сопоставимое качество, но обрабатывать данные медленнее или требовать дороже железо.

Cohere планирует встроить Transcribe в North — свою платформу для корпоративных агентов. В связке с уже существующими языковыми моделями Cohere это превращается в полный стек: «аудио → текст → анализ → действия». Для разработчиков это шанс завязаться на одного вендора по голосу и LLM.

На фоне заявленной годовой выручки в $240 млн в 2025 году и планов выхода на биржу Cohere очевидно будет продолжать вкладываться в голос. Transcribe — не просто эксперимент, а фундамент для дальнейших продуктов вокруг речевых интерфейсов и корпоративной аналитики разговоров.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также