- Дата публикации
Google запустил Gemini 3.5 Live Translate: синхронный голосовой перевод на 70+ языков в Meet, Translate и через API
Что нового
Google представил аудиомодель Gemini 3.5 Live Translate для синхронного голосового перевода. Это не просто «переводчик фраз», а потоковая система, которая говорит почти одновременно с собеседником.
Ключевые изменения и цифры:
- Синхронный голосовой перевод: перевод идёт, пока человек ещё говорит. Задержка — несколько секунд.
- 70+ языков: автоматическое определение языка без ручного выбора.
- Больше 2 000 языковых пар в одном звонке/созвоне: в Google Meet больше нет привязки только к английскому.
- Перевод речи в речь: сохранение интонации, темпа и высоты голоса в озвучке.
- Низкая задержка: нет длинных пауз между фразами, речь звучит почти непрерывно.
- Устойчивость к шуму: модель рассчитана на «живые» условия — звонки, улицу, фоновый шум.
- Без ручной настройки языков: система сама понимает, на каком языке говорят собеседники.
- Встроенный SynthID: вся сгенерированная озвучка помечена незаметным водяным знаком.
По продуктам:
- Разработчики: публичный превью-доступ через Gemini Live API и Google AI Studio.
- Google Meet:
- перевод в реальном времени теперь на 70+ языков вместо пяти;
- больше 2 000 комбинаций языков в одном созвоне;
- обновлённый интерфейс для быстрого включения перевода;
- улучшенный сценарий «живого переводчика» в встречах.
- Google Translate (Android и iOS):
- обновлённый режим разговора с синхронным голосовым переводом;
- перевод в наушники с сохранением тембра и интонации;
- более естественная озвучка собеседника.
- Android:
- новый «режим прослушивания»: можно поднести телефон к уху, как при звонке;
- переведённый звук идёт через разговорный динамик, а не через громкую связь.
Google также сообщает, что все системы перевода в её продуктах уже обрабатывают более триллиона слов в месяц. Gemini 3.5 Live Translate — следующий шаг именно в живом голосовом общении.
Как это работает
Gemini 3.5 Live Translate — потоковая аудиомодель. Она обрабатывает входящий звук в режиме реального времени и параллельно генерирует перевод.
Основные технические принципы:
-
Потоковая обработка речи: система не ждёт конца предложения. Она слушает поток аудио и сразу строит гипотезу перевода.
-
Баланс контекста и скорости: модель иногда сознательно ждёт ещё пару слов, если от них зависит смысл. Это позволяет избежать грубых ошибок при омонимии и сложном синтаксисе, но не превращает диалог в пошаговый.
-
Сохранение параметров голоса: при генерации озвучки модель учитывает:
- интонацию;
- темп речи;
- высоту голоса.
В итоге голос перевода звучит более естественно и меньше похож на «робота, читающего текст».
-
Автоопределение языка: система анализирует звуковой поток и сама определяет язык из списка 70+ поддерживаемых. Пользователь не настраивает языки вручную.
-
Устойчивость к шуму: модель обучали на данных с реальными помехами. Она умеет отделять голос от фона в непредсказуемых условиях — город, офис, транспорт.
-
Инфраструктура стриминга: через Gemini Live API и Google AI Studio разработчики получают готовый потоковый канал «аудио → перевод → аудио». Не нужно строить свой стриминг-сервер.
-
SynthID в аудио: в каждый сгенерированный аудиофайл вшивается незаметный водяной знак. Его можно обнаружить специальными инструментами и отличить ИИ-озвучку от человеческой.
На этой основе партнёры Google — Agora, Fishjam, LiveKit, Pipecat и Vision Agents — уже встраивают Live Translate в свои платформы для звонков, стриминга и голосовых сервисов.
Отдельный кейс — Grab: сервис такси и доставки тестирует Gemini 3.5 Live Translate для почти мгновенного перевода голосовых звонков между водителями и пассажирами. Сейчас платформа обрабатывает более 10 миллионов голосовых звонков в месяц, и перевод нужен прямо «на линии».
Что это значит для вас
Если вы общаетесь с иностранцами в работе
Для созвонов и переговоров Gemini 3.5 Live Translate даёт несколько сценариев:
- Google Meet:
- Переговоры с партнёрами, которые говорят на разных языках. Каждый говорит на своём, система переводит голос в реальном времени.
- Больше не нужно ограничиваться английским как «общим языком»: Meet поддерживает 70+ языков и 2 000+ комбинаций.
- Участники слышат перевод без длинных пауз, что особенно важно для дискуссий и брейнштормов.
Минусы и ограничения:
- Сейчас расширенный перевод в Meet запускается в приватном превью только для части корпоративных клиентов Google Workspace.
- Для массового доступа придётся дождаться более позднего релиза в этом году.
Если вы часто путешествуете или живёте за границей
Google Translate на Android и iOS получает более удобный режим «живого переводчика»:
- Можно разговаривать с человеком лицом к лицу, а телефон будет переводить почти синхронно.
- В наушниках вы слышите перевод с сохранением интонации собеседника.
- Это удобно в кафе, отелях, на ресепшене, в сервисах.
Но есть нюансы:
- Для сложных юридических, финансовых и медицинских разговоров такой перевод лучше использовать только как вспомогательный. Нюансы формулировок и ответственность по-прежнему требуют профессионального переводчика.
- Качество сильно зависит от шума вокруг и скорости речи собеседника.
Если вы делаете продукт или сервис с голосом
Через Gemini Live API и Google AI Studio можно строить свои решения:
- Приложения для голосового перевода звонков.
- Платформы живой интерпретации для онлайн-ивентов.
- Сервисы реального дубляжа контента на другие языки.
- Инструменты для многоязычной поддержки клиентов.
Плюсы:
- Не нужно самостоятельно строить стриминг и распознавание речи.
- Уже есть интеграции с Agora, Fishjam, LiveKit, Pipecat и Vision Agents, что упрощает подключение к существующим видеоплатформам.
Минусы:
- Придётся учитывать задержку в несколько секунд и проектировать интерфейс так, чтобы пользователям было комфортно.
- Для юридически значимых переговоров или чувствительных данных важно продумать политику конфиденциальности и хранение аудио.
Если вы в России
Google Meet, Google Translate и доступ к Google AI Studio/Cloud в России работают нестабильно или могут требовать VPN и аккаунт, привязанный к другой стране. Перед тем как закладывать Gemini 3.5 Live Translate в критичный бизнес-процесс, нужно проверить доступность сервисов именно в ваших условиях.
Где лучше не полагаться на Live Translate
- Юридические контракты, суды, официальные переговоры — риск ошибки перевода слишком высок.
- Медицинские консультации — нет гарантии точного перевода терминов и рекомендаций.
- Любые сценарии, где ошибка перевода может повлечь серьёзные последствия.
В этих случаях Live Translate можно использовать как вспомогательный инструмент, но не как единственный канал понимания.
Место на рынке
Gemini 3.5 Live Translate конкурирует не с текстовыми ИИ вроде GPT-4o или Claude 3, а с голосовыми переводчиками и системами синхронного перевода.
По ключевым параметрам:
-
Тип перевода:
- Gemini 3.5 Live Translate — потоковый перевод «речь → речь» с сохранением интонации.
- Классические голосовые переводчики чаще работают по схеме «сказал фразу → пауза → услышал перевод».
-
Интеграция в экосистему:
- Gemini 3.5 Live Translate уже встроен в Google Meet и Google Translate.
- Для разработчиков есть прямой доступ через Gemini Live API и Google AI Studio.
-
Масштаб использования:
- Переводческие системы Google уже обрабатывают свыше триллиона слов в месяц. Это даёт большой объём данных для обучения и доработки.
Прямых численных сравнений по скорости или качеству перевода с другими крупными игроками Google не приводит. Но по продуктовой стратегии видно: ставка сделана на «почти синхронный» голосовой перевод внутри уже популярных сервисов, а не на отдельное приложение-переводчик.
Для пользователей это означает, что Live Translate логичнее воспринимать как надстройку над Meet и Translate, а для разработчиков — как компонент для встраивания в существующие голосовые сервисы, а не как самостоятельную платформу.