Дата публикации
ai_products

Grok Speech to Text и Text to Speech от xAI: 25 языков и демпинг по цене

Что нового

xAI Илона Маска запустила два отдельных аудио‑API:

  • Grok Speech to Text (STT) — распознавание речи
  • Grok Text to Speech (TTS) — синтез речи

Оба сервиса работают на той же технологической базе, что Grok Voice, голосовые функции в Tesla и голосовая поддержка Starlink.

Ключевые цифры по Grok Speech to Text:

  • Поддержка 25+ языков, включая русский
  • Batch‑распознавание: $0,10 за час аудио
  • Стриминговое распознавание: $0,20 за час аудио
  • Поддержка word‑level timestamps (временные метки для каждого слова)
  • Speaker diarization — определение спикеров с привязкой к словам
  • Мультиканал — раздельная транскрипция многоканального аудио
  • Встроенная Inverse Text Normalization: числа, даты, валюты и другие сущности превращаются в структурированный текст

Сравнение цен на batch STT (за час аудио):

  • Grok STT API — $0,10
  • AssemblyAI — $0,21
  • ElevenLabs — $0,22
  • Deepgram — $0,31

Сравнение цен на streaming STT (за час аудио):

  • Grok STT API — $0,20
  • ElevenLabs — $0,39
  • AssemblyAI — $0,45
  • Deepgram — $0,55

Качество Grok STT xAI показывает через Word Error Rate (WER) по разным сценариям:

  • Phone Call Entities (имена, адреса, цифры в звонках):
    • Grok STT — 5,0%
    • ElevenLabs — 12,0%
    • Deepgram — 13,5%
    • AssemblyAI — 21,3%
  • Видео/подкасты:
    • Grok STT — 2,4%
    • ElevenLabs — 2,4%
    • Deepgram — 3,0%
    • AssemblyAI — 3,2%
  • Митинги:
    • Grok STT — 10,9%
    • ElevenLabs — 12,2%
    • Deepgram — 16,3%
    • AssemblyAI — 15,7%
  • Телефония:
    • Grok STT — 9,3%
    • ElevenLabs — 9,4%
    • Deepgram — 11,0%
    • AssemblyAI — 11,2%
  • Итоговый WER по всем сценариям:
    • Grok STT — 6,9%
    • ElevenLabs — 9,0%
    • Deepgram — 11,0%
    • AssemblyAI — 12,9%

Для Grok Text to Speech xAI даёт такие условия:

  • Цена: $4,20 за 1 млн символов

Сравнение с другими TTS‑сервисами (стоимость за 1 млн символов):

  • Grok TTS API — $4,20
  • OpenAI — $30,00
  • InWorld AI — $40,00
  • Cartesia — $46,70
  • ElevenLabs — $50,00

Надстройки для синтеза:

  • Реальное время через WebSocket и пакетный режим через REST
  • Поддержка спич‑тэгов: [laugh], [sigh], [whisper], <emphasis>, <slow>, <pause> и другие — для управления эмоциями, паузами и интонацией.

Как это работает

Grok Speech to Text

Grok STT доступен через два типа API:

  • REST API — для batch‑обработки больших аудиофайлов. Сервер принимает файл и возвращает готовую транскрипцию, включая временные метки и разметку спикеров.
  • WebSocket API — для стримингового распознавания речи. Клиент отправляет аудиопоток, получает текст почти в реальном времени с минимальной задержкой.

Особенности обработки:

  1. Word‑level timestamps
    Для каждого слова Grok STT возвращает точное время начала и окончания. Это важно для субтитров, поиска по видео и нарезки контента.

  2. Speaker diarization и мультиканал
    Grok STT умеет:

    • Разделять спикеров в одном аудиопотоке и помечать слова Speaker 1, Speaker 2 и т.д.
    • Обрабатывать многоканальное аудио (например, стерео‑записи колл‑центров, где клиент и оператор пишутся на разные каналы) и сохранять разделение.
  3. Inverse Text Normalization (ITN)
    Сервис не просто транскрибирует «как слышит», а приводит речь к структурированному тексту. Пример логики ITN:

    • «четыре один четыре пять пять пять один два три четыре» → 4145551234
    • «шестой девяносто девять» в контексте транзакции → 6.99
    • Даты и валюты оформляются как привычные числа и форматы, а не растянутый текст.

    В англоязычном примере xAI показывает диалог колл‑центра, где Grok STT:

    • корректно распознаёт сложные имена (Anghared Llewelyn Bowen, Oisin MacGiolla Phadraigh)
    • форматирует процентную ставку 3.75%
    • выводит дату March 10th, 2024 полностью, а не 03/10/2024
    • правильно записывает e‑mail a.bowen@bestbank.com, а не в виде «a dot bowen at bestbank dot com»

    Другие модели в примере путают имена, формат дат и e‑mail, давая 6 ошибок против нуля у Grok STT.

  4. Мультиязычность (25+ языков)
    Grok STT работает на нескольких десятках языков и может переключаться между ними без переинициализации сервиса. В списке есть русский.

Grok Text to Speech

Grok TTS тоже доступен через два интерфейса:

  • REST API — генерация озвучки для длинных текстов: статьи, подкасты, аудиокниги.
  • WebSocket API — синтез речи в реальном времени: голосовые ассистенты, игровые персонажи, интерактивные приложения.

Главная идея — тонкая настройка голоса через спич‑тэги. Примеры использования, которые даёт xAI:

Have you heard the new Grok Voice?
whispers Let me tell you a secret... I am the smartest and best AI.
laugh Give it a go! Ask me anything.
I'll be your trusted personal assistant and closest companion.

Разметка позволяет:

  • вставлять смех [laugh]
  • вздохи [sigh]
  • шёпот [whisper]
  • менять акценты <emphasis>
  • замедлять речь <slow>
  • управлять паузами <pause>

Это даёт контроль над интонацией и эмоциями без сложного SSML и кастомных сценариев.

Что это значит для вас

Когда полезно Grok Speech to Text

  1. Колл‑центры и клиентская поддержка
    Grok STT хорошо справляется с:

    • телефонными звонками
    • распознаванием имён, адресов, сумм, дат
    • многоканальной записью «клиент–оператор»

    Низкий WER по Phone Call Entities (5,0%) и телефонии (9,3%) делает его удобным для:

    • автоматического протоколирования звонков
    • поиска по базе разговоров
    • анализа качества работы операторов
  2. Финтех, медицина, юридические сервисы
    xAI отдельно подчёркивает качество работы с сущностями и бизнес‑кейсами:

    • медицинские заключения и диктовки
    • юридические консультации и встречи
    • финансовые звонки, где критичны проценты, даты, суммы
  3. Подкасты, видео, митинги
    Grok STT показывает 2,4% WER на видео/подкастах и 10,9% на митингах. Это подходит для:

    • автосубтитров
    • текстовых версий подкастов
    • протоколов совещаний с разделением по спикерам
  4. Доступность и ассистивные технологии
    Реальное время через WebSocket позволяет:

    • показывать субтитры для живых выступлений
    • делать живые транскрипции звонков
    • помогать людям с нарушениями слуха

При этом Grok STT не идеален для задач, где важны:

  • специальные доменные термины на языках, которые хуже покрыты в модели
  • сложная внутренняя безопасность on‑premise: сервис облачный, значит, придётся проходить внутренние комплаенс‑процедуры

Когда полезен Grok Text to Speech

  1. Голосовые ассистенты и агенты
    Реальное время + спич‑тэги позволяют делать:

    • голосовых ботов поддержки
    • голосовые интерфейсы к продуктам (банки, маркетплейсы, телеком)
  2. Контент‑студии и медиа
    Низкая цена — $4,20 за 1 млн символов — заметно снижает стоимость:

    • озвучки новостей и статей
    • массовой генерации аудиоверсий контента
  3. Игры и интерактивные приложения
    Эмоциональные тэги [laugh], [whisper], <emphasis> помогают быстро прототипировать персонажей и сцены без актёров озвучки на ранних этапах.

Где Grok TTS может не подойти:

  • если вам нужен голос конкретного человека с кастомным войс‑кло닝ом — про это xAI в анонсе не говорит
  • если нужны сложные языковые эффекты и детальная стилизация под бренд, придётся тестировать качество и сравнивать с ElevenLabs и другими

Доступность из России

xAI разворачивает сервисы через собственный API и инфраструктуру. Для разработчиков в России возможны ограничения по гео или платёжным инструментам.

С высокой вероятностью для стабильной работы Grok STT и TTS понадобится VPN и зарубежный платёжный метод. Перед интеграцией имеет смысл проверить доступ к xAI API из вашей сети.

Место на рынке

Цены: агрессивный демпинг

По STT (batch) Grok сейчас один из самых дешёвых вариантов:

  • Grok STT — $0,10/час
  • AssemblyAI — $0,21/час (в 2,1 раза дороже)
  • ElevenLabs — $0,22/час (в 2,2 раза дороже)
  • Deepgram — $0,31/час (в 3,1 раза дороже)

По STT (streaming) картина похожая:

  • Grok STT — $0,20/час
  • ElevenLabs — $0,39/час (примерно в 1,95 раза дороже)
  • AssemblyAI — $0,45/час (в 2,25 раза дороже)
  • Deepgram — $0,55/час (в 2,75 раза дороже)

По TTS разрыв ещё сильнее:

  • Grok TTS — $4,20 за 1 млн символов
  • OpenAI — $30,00 (примерно в 7,1 раза дороже)
  • InWorld AI — $40,00 (в 9,5 раза дороже)
  • Cartesia — $46,70 (примерно в 11,1 раза дороже)
  • ElevenLabs — $50,00 (примерно в 11,9 раза дороже)

Качество: где Grok силён

По данным xAI, Grok STT показывает:

  • Лучший WER по сущностям в телефонных звонках — 5,0% против 12,0–21,3% у конкурентов
  • Сопоставимое качество на видео/подкастах — 2,4%, на уровне ElevenLabs и лучше Deepgram и AssemblyAI
  • Лучший суммарный WER по всем сценариям — 6,9% против 9,0–12,9%

Плюс Grok STT делает то, что многие сервисы оставляют на пост‑обработку:

  • аккуратная нормализация чисел, дат, процентов и валют
  • корректная запись e‑mail и сложных имён

Для бизнеса это означает меньше ручной доработки транскриптов и более точную аналитику по звонкам.

Где остаются вопросы

Из анонса xAI неочевидно:

  • как Grok STT и TTS ведут себя на редких языках и акцентах
  • какие есть гарантии по SLA и стабильности под высокой нагрузкой
  • как быстро сервис масштабируется под крупные проекты (миллионы минут в месяц)

Поэтому разумный сценарий для компаний — начинать с пилота:

  1. Прогнать свой реальный датасет звонков/подкастов через Grok STT.
  2. Сравнить с текущим поставщиком по WER и стоимости.
  3. Потестировать Grok TTS на нескольких голосовых сценариях и проверить реакцию аудитории.

Если вы строите продукты вокруг голоса, Grok от xAI — это в первую очередь про цену и точность на бизнес‑сценариях. Особенно там, где важны деньги, даты, проценты и имена клиентов.


Читайте также