- Дата публикации
Grok Speech to Text и Text to Speech от xAI: 25 языков и демпинг по цене
Что нового
xAI Илона Маска запустила два отдельных аудио‑API:
- Grok Speech to Text (STT) — распознавание речи
- Grok Text to Speech (TTS) — синтез речи
Оба сервиса работают на той же технологической базе, что Grok Voice, голосовые функции в Tesla и голосовая поддержка Starlink.
Ключевые цифры по Grok Speech to Text:
- Поддержка 25+ языков, включая русский
- Batch‑распознавание: $0,10 за час аудио
- Стриминговое распознавание: $0,20 за час аудио
- Поддержка word‑level timestamps (временные метки для каждого слова)
- Speaker diarization — определение спикеров с привязкой к словам
- Мультиканал — раздельная транскрипция многоканального аудио
- Встроенная Inverse Text Normalization: числа, даты, валюты и другие сущности превращаются в структурированный текст
Сравнение цен на batch STT (за час аудио):
- Grok STT API — $0,10
- AssemblyAI — $0,21
- ElevenLabs — $0,22
- Deepgram — $0,31
Сравнение цен на streaming STT (за час аудио):
- Grok STT API — $0,20
- ElevenLabs — $0,39
- AssemblyAI — $0,45
- Deepgram — $0,55
Качество Grok STT xAI показывает через Word Error Rate (WER) по разным сценариям:
- Phone Call Entities (имена, адреса, цифры в звонках):
- Grok STT — 5,0%
- ElevenLabs — 12,0%
- Deepgram — 13,5%
- AssemblyAI — 21,3%
- Видео/подкасты:
- Grok STT — 2,4%
- ElevenLabs — 2,4%
- Deepgram — 3,0%
- AssemblyAI — 3,2%
- Митинги:
- Grok STT — 10,9%
- ElevenLabs — 12,2%
- Deepgram — 16,3%
- AssemblyAI — 15,7%
- Телефония:
- Grok STT — 9,3%
- ElevenLabs — 9,4%
- Deepgram — 11,0%
- AssemblyAI — 11,2%
- Итоговый WER по всем сценариям:
- Grok STT — 6,9%
- ElevenLabs — 9,0%
- Deepgram — 11,0%
- AssemblyAI — 12,9%
Для Grok Text to Speech xAI даёт такие условия:
- Цена: $4,20 за 1 млн символов
Сравнение с другими TTS‑сервисами (стоимость за 1 млн символов):
- Grok TTS API — $4,20
- OpenAI — $30,00
- InWorld AI — $40,00
- Cartesia — $46,70
- ElevenLabs — $50,00
Надстройки для синтеза:
- Реальное время через WebSocket и пакетный режим через REST
- Поддержка спич‑тэгов:
[laugh],[sigh],[whisper],<emphasis>,<slow>,<pause>и другие — для управления эмоциями, паузами и интонацией.
Как это работает
Grok Speech to Text
Grok STT доступен через два типа API:
- REST API — для batch‑обработки больших аудиофайлов. Сервер принимает файл и возвращает готовую транскрипцию, включая временные метки и разметку спикеров.
- WebSocket API — для стримингового распознавания речи. Клиент отправляет аудиопоток, получает текст почти в реальном времени с минимальной задержкой.
Особенности обработки:
-
Word‑level timestamps
Для каждого слова Grok STT возвращает точное время начала и окончания. Это важно для субтитров, поиска по видео и нарезки контента. -
Speaker diarization и мультиканал
Grok STT умеет:- Разделять спикеров в одном аудиопотоке и помечать слова
Speaker 1,Speaker 2и т.д. - Обрабатывать многоканальное аудио (например, стерео‑записи колл‑центров, где клиент и оператор пишутся на разные каналы) и сохранять разделение.
- Разделять спикеров в одном аудиопотоке и помечать слова
-
Inverse Text Normalization (ITN)
Сервис не просто транскрибирует «как слышит», а приводит речь к структурированному тексту. Пример логики ITN:- «четыре один четыре пять пять пять один два три четыре» →
4145551234 - «шестой девяносто девять» в контексте транзакции →
6.99 - Даты и валюты оформляются как привычные числа и форматы, а не растянутый текст.
В англоязычном примере xAI показывает диалог колл‑центра, где Grok STT:
- корректно распознаёт сложные имена (
Anghared Llewelyn Bowen,Oisin MacGiolla Phadraigh) - форматирует процентную ставку
3.75% - выводит дату
March 10th, 2024полностью, а не03/10/2024 - правильно записывает e‑mail
a.bowen@bestbank.com, а не в виде «a dot bowen at bestbank dot com»
Другие модели в примере путают имена, формат дат и e‑mail, давая 6 ошибок против нуля у Grok STT.
- «четыре один четыре пять пять пять один два три четыре» →
-
Мультиязычность (25+ языков)
Grok STT работает на нескольких десятках языков и может переключаться между ними без переинициализации сервиса. В списке есть русский.
Grok Text to Speech
Grok TTS тоже доступен через два интерфейса:
- REST API — генерация озвучки для длинных текстов: статьи, подкасты, аудиокниги.
- WebSocket API — синтез речи в реальном времени: голосовые ассистенты, игровые персонажи, интерактивные приложения.
Главная идея — тонкая настройка голоса через спич‑тэги. Примеры использования, которые даёт xAI:
Have you heard the new Grok Voice?
whispers Let me tell you a secret... I am the smartest and best AI.
laugh Give it a go! Ask me anything.
I'll be your trusted personal assistant and closest companion.
Разметка позволяет:
- вставлять смех
[laugh] - вздохи
[sigh] - шёпот
[whisper] - менять акценты
<emphasis> - замедлять речь
<slow> - управлять паузами
<pause>
Это даёт контроль над интонацией и эмоциями без сложного SSML и кастомных сценариев.
Что это значит для вас
Когда полезно Grok Speech to Text
-
Колл‑центры и клиентская поддержка
Grok STT хорошо справляется с:- телефонными звонками
- распознаванием имён, адресов, сумм, дат
- многоканальной записью «клиент–оператор»
Низкий WER по Phone Call Entities (5,0%) и телефонии (9,3%) делает его удобным для:
- автоматического протоколирования звонков
- поиска по базе разговоров
- анализа качества работы операторов
-
Финтех, медицина, юридические сервисы
xAI отдельно подчёркивает качество работы с сущностями и бизнес‑кейсами:- медицинские заключения и диктовки
- юридические консультации и встречи
- финансовые звонки, где критичны проценты, даты, суммы
-
Подкасты, видео, митинги
Grok STT показывает 2,4% WER на видео/подкастах и 10,9% на митингах. Это подходит для:- автосубтитров
- текстовых версий подкастов
- протоколов совещаний с разделением по спикерам
-
Доступность и ассистивные технологии
Реальное время через WebSocket позволяет:- показывать субтитры для живых выступлений
- делать живые транскрипции звонков
- помогать людям с нарушениями слуха
При этом Grok STT не идеален для задач, где важны:
- специальные доменные термины на языках, которые хуже покрыты в модели
- сложная внутренняя безопасность on‑premise: сервис облачный, значит, придётся проходить внутренние комплаенс‑процедуры
Когда полезен Grok Text to Speech
-
Голосовые ассистенты и агенты
Реальное время + спич‑тэги позволяют делать:- голосовых ботов поддержки
- голосовые интерфейсы к продуктам (банки, маркетплейсы, телеком)
-
Контент‑студии и медиа
Низкая цена — $4,20 за 1 млн символов — заметно снижает стоимость:- озвучки новостей и статей
- массовой генерации аудиоверсий контента
-
Игры и интерактивные приложения
Эмоциональные тэги[laugh],[whisper],<emphasis>помогают быстро прототипировать персонажей и сцены без актёров озвучки на ранних этапах.
Где Grok TTS может не подойти:
- если вам нужен голос конкретного человека с кастомным войс‑кло닝ом — про это xAI в анонсе не говорит
- если нужны сложные языковые эффекты и детальная стилизация под бренд, придётся тестировать качество и сравнивать с ElevenLabs и другими
Доступность из России
xAI разворачивает сервисы через собственный API и инфраструктуру. Для разработчиков в России возможны ограничения по гео или платёжным инструментам.
С высокой вероятностью для стабильной работы Grok STT и TTS понадобится VPN и зарубежный платёжный метод. Перед интеграцией имеет смысл проверить доступ к xAI API из вашей сети.
Место на рынке
Цены: агрессивный демпинг
По STT (batch) Grok сейчас один из самых дешёвых вариантов:
- Grok STT — $0,10/час
- AssemblyAI — $0,21/час (в 2,1 раза дороже)
- ElevenLabs — $0,22/час (в 2,2 раза дороже)
- Deepgram — $0,31/час (в 3,1 раза дороже)
По STT (streaming) картина похожая:
- Grok STT — $0,20/час
- ElevenLabs — $0,39/час (примерно в 1,95 раза дороже)
- AssemblyAI — $0,45/час (в 2,25 раза дороже)
- Deepgram — $0,55/час (в 2,75 раза дороже)
По TTS разрыв ещё сильнее:
- Grok TTS — $4,20 за 1 млн символов
- OpenAI — $30,00 (примерно в 7,1 раза дороже)
- InWorld AI — $40,00 (в 9,5 раза дороже)
- Cartesia — $46,70 (примерно в 11,1 раза дороже)
- ElevenLabs — $50,00 (примерно в 11,9 раза дороже)
Качество: где Grok силён
По данным xAI, Grok STT показывает:
- Лучший WER по сущностям в телефонных звонках — 5,0% против 12,0–21,3% у конкурентов
- Сопоставимое качество на видео/подкастах — 2,4%, на уровне ElevenLabs и лучше Deepgram и AssemblyAI
- Лучший суммарный WER по всем сценариям — 6,9% против 9,0–12,9%
Плюс Grok STT делает то, что многие сервисы оставляют на пост‑обработку:
- аккуратная нормализация чисел, дат, процентов и валют
- корректная запись e‑mail и сложных имён
Для бизнеса это означает меньше ручной доработки транскриптов и более точную аналитику по звонкам.
Где остаются вопросы
Из анонса xAI неочевидно:
- как Grok STT и TTS ведут себя на редких языках и акцентах
- какие есть гарантии по SLA и стабильности под высокой нагрузкой
- как быстро сервис масштабируется под крупные проекты (миллионы минут в месяц)
Поэтому разумный сценарий для компаний — начинать с пилота:
- Прогнать свой реальный датасет звонков/подкастов через Grok STT.
- Сравнить с текущим поставщиком по WER и стоимости.
- Потестировать Grok TTS на нескольких голосовых сценариях и проверить реакцию аудитории.
Если вы строите продукты вокруг голоса, Grok от xAI — это в первую очередь про цену и точность на бизнес‑сценариях. Особенно там, где важны деньги, даты, проценты и имена клиентов.