- Дата публикации
Реальный голосовой перевод быстрее Google Meet: тест 30+ AI-движков и чей TTS убивает звонок
Что появилось / что изменилось
Автор собрал рабочий прототип двустороннего голосового переводчика, который по скорости обгоняет встроенный перевод в Google Meet и не привязан к одной платформе. Ключевая цель — разговор «как вживую»: без 2–4‑секундных пауз, которые превращают диалог в рацию.
Главное из цифр:
- Google Meet S2ST — задержка около 2 секунд, работает только в Meet, только при платном Workspace, без API.
- Palabra.ai — ~800 мс, от $25 в месяц за 60 минут, при активном использовании чек легко уходит за $100+.
- DeepL Voice — ~1–2 секунды, $32,99/мес (Pro), пользователи жалуются на лаги в живых звонках.
- Корпоративные решения (Interprefy, Wordly) — задержка 1–3 секунды, цены от $300–500+, заточены под конференции.
- ElevenLabs как готовый стек (STT + TTS) в реальном времени обходится примерно в $5,57 за час речи.
Вместо готового SaaS автор собрал конструктор на трёх типах движков:
- STT (speech-to-text) — Deepgram Nova‑3: задержка <300 мс, WER ~10%, цена $0,0059 за минуту. При регистрационном бонусе $200 это ~33 000 минут, или 560 часов распознавания.
- LLM-перевод — Llama 3.3 70B на Groq: около 200 мс до первого токена, скорость ~750 токенов/с.
- TTS (text-to-speech) — несколько движков, на бенчмарках от 40 до 500+ мс до первого байта и от $0,26 до $5,57 за час синтеза.
Критичный вывод: STT и LLM уже укладываются в ~500 мс, а основная задержка и основная часть стоимости часто приходятся на TTS.
Как это работает
Схема простая по логике и жёсткая по требованиям к задержкам:
1. STT: кто первым «схватывает» речь
Задача — как можно быстрее превратить звук в текстовый поток.
- Deepgram Nova‑3 даёт стриминг с задержкой <300 мс, WER около 10%, цена $0,0059/мин. Это делает его удобной точкой входа для реального времени.
- AssemblyAI Universal‑2 держится на тех же ~300 мс и ошибках 8,4%, но без серьёзного выигрыша по цене.
- Groq Whisper Large v3 показывает хорошую стоимость — $0,0028 за минуту — но работает батчево, без стриминга, средняя задержка 2812 мс и частые 503‑е ошибки.
- whisper.cpp локально на Apple‑чипе даёт 1–3 секунды на распознавание, бесплатно, но эти секунды мгновенно убивают ощущение «живого» диалога.
2. LLM: скорость первого токена важнее общей скорости
Перевод — это короткие фразы по 5–15 слов, поэтому важен не столько throughput, сколько TTFT.
- Groq + Llama 3.3 70B — ~200 мс до первого токена, ~750 токенов/с, хорошее качество перевода.
- Cerebras + Llama 8B — до 1800 токенов/с, но TTFT ~350 мс, для коротких фраз это уже заметная задержка.
- Gemini 2.5 Flash — 217–245 токенов/с, TTFT 330–450 мс.
Локальные модели вроде Llama 3.2 3B на MLX (~100 токенов/с) пока проигрывают по задержкам, если цель — разговор в реальном времени, а не офлайн-перевод.
3. TTS: главное бутылочное горлышко
Синтез речи фиксирует всю цепочку. Если STT + LLM укладываются в 500 мс, но TTS запускается через секунду и дольше, собеседник ждёт 1,5–2 секунды после каждой реплики.
Ключевые цифры по TTS (расчёт цены за час из допущения ~33 750 символов TTS на час двустороннего звонка):
- Cartesia Sonic Turbo / Sonic 3 — TTFB ~40–90 мс, ELO 1054, $37–47 за 1M символов, примерно $1,26 за час, есть русский.
- Hume Octave 2 — <200 мс, ELO 1562, $7,60 за 1M символов, ~$0,26/час, русский среди 11 языков.
- Inworld TTS‑1.5-Mini/Max — 120–250 мс, ELO до 1576, $5–10 за 1M символов, $0,17–0,34/час, без русского.
- ElevenLabs Flash v2.5 — ~75 мс, ELO 1544, около $206 за 1M символов, $5,57 за час, есть русский.
- Smallest.ai Lightning — <100 мс, ELO ~1150, ~$25 за 1M символов, ~$0,84/час, есть русский.
- Fish Audio OpenAudio S1 — <100 мс, ELO ~1200, $15 за 1M символов, ~$0,51/час, есть русский.
- Deepgram Aura‑2 — 90–184 мс, ELO ~1050, $27–30 за 1M символов, ~$1,01/час, без русского.
- OpenAI TTS‑1 — ~500 мс, ELO 1106, $15 за 1M символов, ~$0,51/час, есть русский.
- OpenAI gpt‑4o-mini‑tts — ~300 мс, ELO ~1350, $64 за 1M токенов, примерно $3,20/час, есть русский.
- Google Neural2 — 200–250 мс, ELO ~1020, $16 за 1M символов, ~$0,54/час, есть русский.
- Google Chirp 3 HD — до 3,5 секунд TTFB при ELO ~1180, $30 за 1M символов, ~$1,01/час, есть русский.
- Azure Neural HD — 300–500 мс, ELO ~1080, $15 за 1M символов, ~$0,54/час, есть русский.
- Speechmatics Flow — ~150 мс, ELO ~1100, $11 за 1M символов, ~$0,37/час, русского нет.
TTS с задержкой выше 300–400 мс превращает даже идеальный STT+LLM в медленный переводчик. Поэтому автор и называет ценник ElevenLabs в $5,57/час «приговором» для масштабного бизнеса.
Что это значит для вас
Если вы:
- работаете в международной команде и уверенно читаете по‑английски, но боитесь говорить;
- созваниваетесь с клиентами и партнёрами и хотите держать темп диалога;
- строите собственные AI-сервисы, где голос — ключевой интерфейс,
то из этого разбора можно сразу вытащить практический стек и ориентиры по бюджету.
Что использовать сейчас:
- Для прототипа голосового переводчика: Deepgram Nova‑3 для STT, Groq + Llama 3.3 70B для перевода, и один из TTS с TTFB до 200 мс и ценой до $1/час — Hume, Fish Audio, Smallest.ai или Cartesia, если нужен русский.
- Для личных созвонов: готовые SaaS вроде Palabra.ai проще в запуске, но при активном использовании вы быстро выходите на счета $100+ в месяц.
- Для продукта с большим числом звонков: ElevenLabs даёт хороший звук и низкую задержку, но примерно $5,57 за час только за синтез — это ощутимый чек при сотнях часов.
Где не стоит применять такой стек:
- если вам нужен массовый доступ без VPN и вы не готовы держать у себя ключи к зарубежным API;
- если звонки идут с мобильных сетей с высокой потерей пакетов — даже лучший стек не спасёт от лагов;
- если требуется поддержка только одной платформы (например, весь бизнес живёт в Google Meet) и вас устраивает задержка в 1,5–2 секунды — тогда проще остаться на встроенном переводе.
Тонкий момент: для России часть API может потребовать VPN и платёжные способы, которые не блокируют зарубежные сервисы. Это касается практически всех перечисленных провайдеров.
Место на рынке
Если смотреть на рынок как на набор «кирпичиков» для голосового перевода, расклад получается таким.
По задержкам:
- По STT в стриминге лучше всего выглядит Deepgram Nova‑3: <300 мс против 1–3 секунд у локального whisper.cpp и 2800+ мс у Groq Whisper в батче.
- По LLM критичен TTFT, а не скорость генерации. Groq + Llama 3.3 70B с ~200 мс до первого токена выигрывает у Gemini 2.5 Flash (330–450 мс) и Cerebras Llama 8B (около 350 мс), несмотря на более высокую скорость токенов у Cerebras.
- По TTS самая низкая заявленная задержка — у Cartesia Sonic Turbo (~40 мс) и ElevenLabs Flash v2.5 (~75 мс). Но разница в цене между $1,26/час у Cartesia и $5,57/час у ElevenLabs колоссальная.
По цене за час синтеза:
- Нижний диапазон: Hume Octave 2 (~$0,26/час), Speechmatics Flow (~$0,37/час), Fish Audio (~$0,51/час).
- Средний: Google Neural2, Azure Neural HD, OpenAI TTS‑1 — около $0,51–0,54/час.
- Верхний: Cartesia (~$1,01–1,26/час), OpenAI gpt‑4o-mini‑tts (~$3,20/час), ElevenLabs Flash v2.5 (~$5,57/час).
По продуктам «под ключ»:
- Google Meet S2ST — удобно, если вы уже платите за Workspace и живёте в экосистеме Google, но вы привязаны к Meet и к задержке около 2 секунд.
- Palabra.ai и купленный им Talo — компромисс по скорости (~800 мс) и цене от $25/мес, но при регулярных созвонах бюджет быстро растёт.
- Interprefy, Wordly — тяжёлая артиллерия для конференций с билетами от сотен долларов, а не ежедневный рабочий Zoom.
Конструктор из Deepgram + Groq + недорогой быстрый TTS показывает, что «перевод быстрее Google Meet» уже реально собрать силами небольшой команды за пару недель. Ограничения сейчас не в качестве перевода, а в задержках и стоимости синтеза при масштабировании до сотен часов речи.