Google запустил Gemini 3.5 Live Translate: синхронный голосовой перевод на 70+ языков в Meet, Translate и через API — VogueTech

Что нового

Google представил аудиомодель Gemini 3.5 Live Translate для синхронного голосового перевода. Это не просто «переводчик фраз», а потоковая система, которая говорит почти одновременно с собеседником.

Ключевые изменения и цифры:

Синхронный голосовой перевод: перевод идёт, пока человек ещё говорит. Задержка — несколько секунд.
70+ языков: автоматическое определение языка без ручного выбора.
Больше 2 000 языковых пар в одном звонке/созвоне: в Google Meet больше нет привязки только к английскому.
Перевод речи в речь: сохранение интонации, темпа и высоты голоса в озвучке.
Низкая задержка: нет длинных пауз между фразами, речь звучит почти непрерывно.
Устойчивость к шуму: модель рассчитана на «живые» условия — звонки, улицу, фоновый шум.
Без ручной настройки языков: система сама понимает, на каком языке говорят собеседники.
Встроенный SynthID: вся сгенерированная озвучка помечена незаметным водяным знаком.

По продуктам:

Разработчики: публичный превью-доступ через Gemini Live API и Google AI Studio.
Google Meet:
- перевод в реальном времени теперь на 70+ языков вместо пяти;
- больше 2 000 комбинаций языков в одном созвоне;
- обновлённый интерфейс для быстрого включения перевода;
- улучшенный сценарий «живого переводчика» в встречах.
Google Translate (Android и iOS):
- обновлённый режим разговора с синхронным голосовым переводом;
- перевод в наушники с сохранением тембра и интонации;
- более естественная озвучка собеседника.
Android:
- новый «режим прослушивания»: можно поднести телефон к уху, как при звонке;
- переведённый звук идёт через разговорный динамик, а не через громкую связь.

Google также сообщает, что все системы перевода в её продуктах уже обрабатывают более триллиона слов в месяц. Gemini 3.5 Live Translate — следующий шаг именно в живом голосовом общении.

Как это работает

Gemini 3.5 Live Translate — потоковая аудиомодель. Она обрабатывает входящий звук в режиме реального времени и параллельно генерирует перевод.

Основные технические принципы:

Потоковая обработка речи: система не ждёт конца предложения. Она слушает поток аудио и сразу строит гипотезу перевода.
Баланс контекста и скорости: модель иногда сознательно ждёт ещё пару слов, если от них зависит смысл. Это позволяет избежать грубых ошибок при омонимии и сложном синтаксисе, но не превращает диалог в пошаговый.
Сохранение параметров голоса: при генерации озвучки модель учитывает:
- интонацию;
- темп речи;
- высоту голоса.
В итоге голос перевода звучит более естественно и меньше похож на «робота, читающего текст».
Автоопределение языка: система анализирует звуковой поток и сама определяет язык из списка 70+ поддерживаемых. Пользователь не настраивает языки вручную.
Устойчивость к шуму: модель обучали на данных с реальными помехами. Она умеет отделять голос от фона в непредсказуемых условиях — город, офис, транспорт.
Инфраструктура стриминга: через Gemini Live API и Google AI Studio разработчики получают готовый потоковый канал «аудио → перевод → аудио». Не нужно строить свой стриминг-сервер.
SynthID в аудио: в каждый сгенерированный аудиофайл вшивается незаметный водяной знак. Его можно обнаружить специальными инструментами и отличить ИИ-озвучку от человеческой.

На этой основе партнёры Google — Agora, Fishjam, LiveKit, Pipecat и Vision Agents — уже встраивают Live Translate в свои платформы для звонков, стриминга и голосовых сервисов.

Отдельный кейс — Grab: сервис такси и доставки тестирует Gemini 3.5 Live Translate для почти мгновенного перевода голосовых звонков между водителями и пассажирами. Сейчас платформа обрабатывает более 10 миллионов голосовых звонков в месяц, и перевод нужен прямо «на линии».

Что это значит для вас

Если вы общаетесь с иностранцами в работе

Для созвонов и переговоров Gemini 3.5 Live Translate даёт несколько сценариев:

Google Meet:
- Переговоры с партнёрами, которые говорят на разных языках. Каждый говорит на своём, система переводит голос в реальном времени.
- Больше не нужно ограничиваться английским как «общим языком»: Meet поддерживает 70+ языков и 2 000+ комбинаций.
- Участники слышат перевод без длинных пауз, что особенно важно для дискуссий и брейнштормов.

Минусы и ограничения:

Сейчас расширенный перевод в Meet запускается в приватном превью только для части корпоративных клиентов Google Workspace.
Для массового доступа придётся дождаться более позднего релиза в этом году.

Если вы часто путешествуете или живёте за границей

Google Translate на Android и iOS получает более удобный режим «живого переводчика»:

Можно разговаривать с человеком лицом к лицу, а телефон будет переводить почти синхронно.
В наушниках вы слышите перевод с сохранением интонации собеседника.
Это удобно в кафе, отелях, на ресепшене, в сервисах.

Но есть нюансы:

Для сложных юридических, финансовых и медицинских разговоров такой перевод лучше использовать только как вспомогательный. Нюансы формулировок и ответственность по-прежнему требуют профессионального переводчика.
Качество сильно зависит от шума вокруг и скорости речи собеседника.

Если вы делаете продукт или сервис с голосом

Через Gemini Live API и Google AI Studio можно строить свои решения:

Приложения для голосового перевода звонков.
Платформы живой интерпретации для онлайн-ивентов.
Сервисы реального дубляжа контента на другие языки.
Инструменты для многоязычной поддержки клиентов.

Плюсы:

Не нужно самостоятельно строить стриминг и распознавание речи.
Уже есть интеграции с Agora, Fishjam, LiveKit, Pipecat и Vision Agents, что упрощает подключение к существующим видеоплатформам.

Минусы:

Придётся учитывать задержку в несколько секунд и проектировать интерфейс так, чтобы пользователям было комфортно.
Для юридически значимых переговоров или чувствительных данных важно продумать политику конфиденциальности и хранение аудио.

Если вы в России

Google Meet, Google Translate и доступ к Google AI Studio/Cloud в России работают нестабильно или могут требовать VPN и аккаунт, привязанный к другой стране. Перед тем как закладывать Gemini 3.5 Live Translate в критичный бизнес-процесс, нужно проверить доступность сервисов именно в ваших условиях.

Где лучше не полагаться на Live Translate

Юридические контракты, суды, официальные переговоры — риск ошибки перевода слишком высок.
Медицинские консультации — нет гарантии точного перевода терминов и рекомендаций.
Любые сценарии, где ошибка перевода может повлечь серьёзные последствия.

В этих случаях Live Translate можно использовать как вспомогательный инструмент, но не как единственный канал понимания.

Место на рынке

Gemini 3.5 Live Translate конкурирует не с текстовыми ИИ вроде GPT-4o или Claude 3, а с голосовыми переводчиками и системами синхронного перевода.

По ключевым параметрам:

Тип перевода:
- Gemini 3.5 Live Translate — потоковый перевод «речь → речь» с сохранением интонации.
- Классические голосовые переводчики чаще работают по схеме «сказал фразу → пауза → услышал перевод».
Интеграция в экосистему:
- Gemini 3.5 Live Translate уже встроен в Google Meet и Google Translate.
- Для разработчиков есть прямой доступ через Gemini Live API и Google AI Studio.
Масштаб использования:
- Переводческие системы Google уже обрабатывают свыше триллиона слов в месяц. Это даёт большой объём данных для обучения и доработки.

Прямых численных сравнений по скорости или качеству перевода с другими крупными игроками Google не приводит. Но по продуктовой стратегии видно: ставка сделана на «почти синхронный» голосовой перевод внутри уже популярных сервисов, а не на отдельное приложение-переводчик.

Для пользователей это означает, что Live Translate логичнее воспринимать как надстройку над Meet и Translate, а для разработчиков — как компонент для встраивания в существующие голосовые сервисы, а не как самостоятельную платформу.