Grok Speech to Text и Text to Speech от xAI: 25 языков и демпинг по цене — VogueTech

Что нового

xAI Илона Маска запустила два отдельных аудио‑API:

Grok Speech to Text (STT) — распознавание речи
Grok Text to Speech (TTS) — синтез речи

Оба сервиса работают на той же технологической базе, что Grok Voice, голосовые функции в Tesla и голосовая поддержка Starlink.

Ключевые цифры по Grok Speech to Text:

Поддержка 25+ языков, включая русский
Batch‑распознавание: $0,10 за час аудио
Стриминговое распознавание: $0,20 за час аудио
Поддержка word‑level timestamps (временные метки для каждого слова)
Speaker diarization — определение спикеров с привязкой к словам
Мультиканал — раздельная транскрипция многоканального аудио
Встроенная Inverse Text Normalization: числа, даты, валюты и другие сущности превращаются в структурированный текст

Сравнение цен на batch STT (за час аудио):

Grok STT API — $0,10
AssemblyAI — $0,21
ElevenLabs — $0,22
Deepgram — $0,31

Сравнение цен на streaming STT (за час аудио):

Grok STT API — $0,20
ElevenLabs — $0,39
AssemblyAI — $0,45
Deepgram — $0,55

Качество Grok STT xAI показывает через Word Error Rate (WER) по разным сценариям:

Phone Call Entities (имена, адреса, цифры в звонках):
- Grok STT — 5,0%
- ElevenLabs — 12,0%
- Deepgram — 13,5%
- AssemblyAI — 21,3%
Видео/подкасты:
- Grok STT — 2,4%
- ElevenLabs — 2,4%
- Deepgram — 3,0%
- AssemblyAI — 3,2%
Митинги:
- Grok STT — 10,9%
- ElevenLabs — 12,2%
- Deepgram — 16,3%
- AssemblyAI — 15,7%
Телефония:
- Grok STT — 9,3%
- ElevenLabs — 9,4%
- Deepgram — 11,0%
- AssemblyAI — 11,2%
Итоговый WER по всем сценариям:
- Grok STT — 6,9%
- ElevenLabs — 9,0%
- Deepgram — 11,0%
- AssemblyAI — 12,9%

Для Grok Text to Speech xAI даёт такие условия:

Цена: $4,20 за 1 млн символов

Сравнение с другими TTS‑сервисами (стоимость за 1 млн символов):

Grok TTS API — $4,20
OpenAI — $30,00
InWorld AI — $40,00
Cartesia — $46,70
ElevenLabs — $50,00

Надстройки для синтеза:

Реальное время через WebSocket и пакетный режим через REST
Поддержка спич‑тэгов: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> и другие — для управления эмоциями, паузами и интонацией.

Как это работает

Grok Speech to Text

Grok STT доступен через два типа API:

REST API — для batch‑обработки больших аудиофайлов. Сервер принимает файл и возвращает готовую транскрипцию, включая временные метки и разметку спикеров.
WebSocket API — для стримингового распознавания речи. Клиент отправляет аудиопоток, получает текст почти в реальном времени с минимальной задержкой.

Особенности обработки:

Word‑level timestamps
Для каждого слова Grok STT возвращает точное время начала и окончания. Это важно для субтитров, поиска по видео и нарезки контента.
Speaker diarization и мультиканал
Grok STT умеет:
- Разделять спикеров в одном аудиопотоке и помечать слова Speaker 1, Speaker 2 и т.д.
- Обрабатывать многоканальное аудио (например, стерео‑записи колл‑центров, где клиент и оператор пишутся на разные каналы) и сохранять разделение.
Inverse Text Normalization (ITN)
Сервис не просто транскрибирует «как слышит», а приводит речь к структурированному тексту. Пример логики ITN:
- «четыре один четыре пять пять пять один два три четыре» → 4145551234
- «шестой девяносто девять» в контексте транзакции → 6.99
- Даты и валюты оформляются как привычные числа и форматы, а не растянутый текст.
В англоязычном примере xAI показывает диалог колл‑центра, где Grok STT:
- корректно распознаёт сложные имена (Anghared Llewelyn Bowen, Oisin MacGiolla Phadraigh)
- форматирует процентную ставку 3.75%
- выводит дату March 10th, 2024 полностью, а не 03/10/2024
- правильно записывает e‑mail a.bowen@bestbank.com, а не в виде «a dot bowen at bestbank dot com»
Другие модели в примере путают имена, формат дат и e‑mail, давая 6 ошибок против нуля у Grok STT.
Мультиязычность (25+ языков)
Grok STT работает на нескольких десятках языков и может переключаться между ними без переинициализации сервиса. В списке есть русский.

Grok Text to Speech

Grok TTS тоже доступен через два интерфейса:

REST API — генерация озвучки для длинных текстов: статьи, подкасты, аудиокниги.
WebSocket API — синтез речи в реальном времени: голосовые ассистенты, игровые персонажи, интерактивные приложения.

Главная идея — тонкая настройка голоса через спич‑тэги. Примеры использования, которые даёт xAI:

Have you heard the new Grok Voice?
whispers Let me tell you a secret... I am the smartest and best AI.
laugh Give it a go! Ask me anything.
I'll be your trusted personal assistant and closest companion.

Разметка позволяет:

вставлять смех [laugh]
вздохи [sigh]
шёпот [whisper]
менять акценты <emphasis>
замедлять речь <slow>
управлять паузами <pause>

Это даёт контроль над интонацией и эмоциями без сложного SSML и кастомных сценариев.

Что это значит для вас

Когда полезно Grok Speech to Text

Колл‑центры и клиентская поддержка
Grok STT хорошо справляется с:
- телефонными звонками
- распознаванием имён, адресов, сумм, дат
- многоканальной записью «клиент–оператор»
Низкий WER по Phone Call Entities (5,0%) и телефонии (9,3%) делает его удобным для:
- автоматического протоколирования звонков
- поиска по базе разговоров
- анализа качества работы операторов
Финтех, медицина, юридические сервисы
xAI отдельно подчёркивает качество работы с сущностями и бизнес‑кейсами:
- медицинские заключения и диктовки
- юридические консультации и встречи
- финансовые звонки, где критичны проценты, даты, суммы
Подкасты, видео, митинги
Grok STT показывает 2,4% WER на видео/подкастах и 10,9% на митингах. Это подходит для:
- автосубтитров
- текстовых версий подкастов
- протоколов совещаний с разделением по спикерам
Доступность и ассистивные технологии
Реальное время через WebSocket позволяет:
- показывать субтитры для живых выступлений
- делать живые транскрипции звонков
- помогать людям с нарушениями слуха

При этом Grok STT не идеален для задач, где важны:

специальные доменные термины на языках, которые хуже покрыты в модели
сложная внутренняя безопасность on‑premise: сервис облачный, значит, придётся проходить внутренние комплаенс‑процедуры

Когда полезен Grok Text to Speech

Голосовые ассистенты и агенты
Реальное время + спич‑тэги позволяют делать:
- голосовых ботов поддержки
- голосовые интерфейсы к продуктам (банки, маркетплейсы, телеком)
Контент‑студии и медиа
Низкая цена — $4,20 за 1 млн символов — заметно снижает стоимость:
- озвучки новостей и статей
- массовой генерации аудиоверсий контента
Игры и интерактивные приложения
Эмоциональные тэги [laugh], [whisper], <emphasis> помогают быстро прототипировать персонажей и сцены без актёров озвучки на ранних этапах.

Где Grok TTS может не подойти:

если вам нужен голос конкретного человека с кастомным войс‑кло닝ом — про это xAI в анонсе не говорит
если нужны сложные языковые эффекты и детальная стилизация под бренд, придётся тестировать качество и сравнивать с ElevenLabs и другими

Доступность из России

xAI разворачивает сервисы через собственный API и инфраструктуру. Для разработчиков в России возможны ограничения по гео или платёжным инструментам.

С высокой вероятностью для стабильной работы Grok STT и TTS понадобится VPN и зарубежный платёжный метод. Перед интеграцией имеет смысл проверить доступ к xAI API из вашей сети.

Место на рынке

Цены: агрессивный демпинг

По STT (batch) Grok сейчас один из самых дешёвых вариантов:

Grok STT — $0,10/час
AssemblyAI — $0,21/час (в 2,1 раза дороже)
ElevenLabs — $0,22/час (в 2,2 раза дороже)
Deepgram — $0,31/час (в 3,1 раза дороже)

По STT (streaming) картина похожая:

Grok STT — $0,20/час
ElevenLabs — $0,39/час (примерно в 1,95 раза дороже)
AssemblyAI — $0,45/час (в 2,25 раза дороже)
Deepgram — $0,55/час (в 2,75 раза дороже)

По TTS разрыв ещё сильнее:

Grok TTS — $4,20 за 1 млн символов
OpenAI — $30,00 (примерно в 7,1 раза дороже)
InWorld AI — $40,00 (в 9,5 раза дороже)
Cartesia — $46,70 (примерно в 11,1 раза дороже)
ElevenLabs — $50,00 (примерно в 11,9 раза дороже)

Качество: где Grok силён

По данным xAI, Grok STT показывает:

Лучший WER по сущностям в телефонных звонках — 5,0% против 12,0–21,3% у конкурентов
Сопоставимое качество на видео/подкастах — 2,4%, на уровне ElevenLabs и лучше Deepgram и AssemblyAI
Лучший суммарный WER по всем сценариям — 6,9% против 9,0–12,9%

Плюс Grok STT делает то, что многие сервисы оставляют на пост‑обработку:

аккуратная нормализация чисел, дат, процентов и валют
корректная запись e‑mail и сложных имён

Для бизнеса это означает меньше ручной доработки транскриптов и более точную аналитику по звонкам.

Где остаются вопросы

Из анонса xAI неочевидно:

как Grok STT и TTS ведут себя на редких языках и акцентах
какие есть гарантии по SLA и стабильности под высокой нагрузкой
как быстро сервис масштабируется под крупные проекты (миллионы минут в месяц)

Поэтому разумный сценарий для компаний — начинать с пилота:

Прогнать свой реальный датасет звонков/подкастов через Grok STT.
Сравнить с текущим поставщиком по WER и стоимости.
Потестировать Grok TTS на нескольких голосовых сценариях и проверить реакцию аудитории.

Если вы строите продукты вокруг голоса, Grok от xAI — это в первую очередь про цену и точность на бизнес‑сценариях. Особенно там, где важны деньги, даты, проценты и имена клиентов.