- Дата публикации
Cohere Transcribe: открытая голосовая модель для расшифровки речи с потребительских GPU
Что появилось / что изменилось
Cohere представила свой первый голосовой продукт — модель распознавания речи Transcribe. Это open-source модель автоматического распознавания речи (ASR), ориентированная именно на транскрибацию: заметки, протоколы встреч, анализ звонков, диктовка.
Ключевые факты:
- Размер модели — 2 млрд параметров. Это относительно компактно для self-hosting на потребительских GPU.
- Поддерживаемые языки (14 штук): английский, французский, немецкий, итальянский, испанский, португальский, греческий, нидерландский, польский, китайский, японский, корейский, вьетнамский и арабский.
- Средний показатель качества: word error rate (WER) 5,42 на бенчмарке Hugging Face Open ASR — по данным Cohere, это лучший результат среди представленных там моделей.
- Transcribe обгоняет на этом лидерборде Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 и Qwen3-ASR-1.7B Speech.
- По оценкам человеческих ревьюеров, Transcribe выигрывает у других моделей в 61% парных сравнений по точности, связности и удобству текста.
- Слабые места: хуже конкурентов на португальском, немецком и испанском.
- Скорость: до 525 минут аудио за одну минуту обработки — очень высокая производительность для модели такого класса.
- Доступность: модель открыта, её можно развернуть у себя. Cohere также даёт доступ через API бесплатно и через свой managed-сервис Model Valut.
- В планах — встроить Transcribe в корпоративную платформу оркестрации агентов Cohere North.
Как это работает
Transcribe — это языково-аудиальная модель автоматического распознавания речи с 2 млрд параметров. Такой размер позволяет запускать её не только в облаке Cohere, но и на относительно доступных видеокартах без дата-центра.
Схема работы стандартная для современных ASR-систем:
- На вход подаётся аудиопоток или файл.
- Модель переводит звуковой сигнал в текстовую расшифровку в одном из поддерживаемых языков.
- Результат можно использовать дальше в пайплайне: поиск по тексту, анализ тональности, извлечение сущностей, генерация конспекта.
Cohere замеряет качество Transcribe по word error rate на открытом лидерборде Hugging Face Open ASR и дополнительно валидирует модель с помощью человеческих оценок. Это даёт понимание не только «сухой» ошибки по словам, но и субъективного качества: насколько расшифровка читаема и полезна.
Скорость 525 минут аудио за минуту означает, что вы можете прогнать, например, недельный архив созвонов за несколько минут на подходящем железе или через managed-сервис Cohere.
Что это значит для вас
Если вы строите продукт вокруг голоса — Transcribe закрывает типовые задачи:
- Авторасшифровка созвонов в Zoom/Meet/Teams.
- Заметки по голосу для личных и рабочих задач.
- Аналитика звонков в кол-центре и продажах: качество сервиса, частые вопросы, сценарии общения.
- Подготовка текстовых архивов из подкастов, вебинаров, обучающих видео.
Когда Transcribe особенно полезна:
- Вам нужно развернуть ASR on-premise или в своём облаке, а не отдавать аудио внешним провайдерам.
- Важна скорость пакетной обработки больших объёмов аудио.
- Вы ориентируетесь на многоязычную аудиторию, включая азиатские языки (китайский, японский, корейский) и арабский.
Когда модель может не подойти:
- Критичный язык — португальский, немецкий или испанский, а качество стенограмм важнее всего. По этим языкам конкуренты у Cohere сейчас сильнее.
- Вам нужен не только текст, но и сразу глубокий смысловой разбор (длинные резюме, сложная аналитика). Transcribe даёт текст; для аналитики придётся добавлять LLM и собственный пайплайн.
- Ваша аудитория русскоязычная. Русского в списке поддерживаемых языков нет, придётся использовать другие решения или ждать расширения.
Cohere даёт бесплатный доступ через API. Но для пользователей из России могут потребоваться VPN и работа через зарубежную инфраструктуру — как и с большинством западных AI-сервисов. Если вы запускаете Transcribe локально как open-source модель, доступа к сервисам Cohere не нужно, но придётся подготовить своё железо и обеспечить MLOps.
Место на рынке
Transcribe Cohere сразу заходит в сегмент, где уже активно работают Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 и Qwen3-ASR-1.7B Speech. По данным Hugging Face Open ASR, Transcribe показывает лучший средний WER — 5,42, то есть в среднем ошибается реже конкурентов на этом бенчмарке.
Дополнительный аргумент — человеческие оценки: Transcribe выигрывает в 61% парных сравнений по точности и удобству чтения. Это важно для реального продукта, где сухой WER не всегда отражает, насколько стенограмма понятна человеку.
Снижение качества на португальском, немецком и испанском — заметный минус для глобальных продуктов, которые работают в Европе и Латинской Америке. В этих регионах может потребоваться смешанный стек: Transcribe для одних языков и другие модели для проблемных.
Скорость 525 минут аудио за минуту делает Transcribe интересной для компаний, которые регулярно прогоняют огромные архивы: юридические службы, медиа, образовательные платформы. На этом фоне более тяжёлые модели могут давать сопоставимое качество, но обрабатывать данные медленнее или требовать дороже железо.
Cohere планирует встроить Transcribe в North — свою платформу для корпоративных агентов. В связке с уже существующими языковыми моделями Cohere это превращается в полный стек: «аудио → текст → анализ → действия». Для разработчиков это шанс завязаться на одного вендора по голосу и LLM.
На фоне заявленной годовой выручки в $240 млн в 2025 году и планов выхода на биржу Cohere очевидно будет продолжать вкладываться в голос. Transcribe — не просто эксперимент, а фундамент для дальнейших продуктов вокруг речевых интерфейсов и корпоративной аналитики разговоров.