Дата публикации
ai_products

Google запустил Gemini 3.5 Live Translate: синхронный голосовой перевод на 70+ языков в Meet, Translate и через API

Что нового

Google представил аудиомодель Gemini 3.5 Live Translate для синхронного голосового перевода. Это не просто «переводчик фраз», а потоковая система, которая говорит почти одновременно с собеседником.

Ключевые изменения и цифры:

  • Синхронный голосовой перевод: перевод идёт, пока человек ещё говорит. Задержка — несколько секунд.
  • 70+ языков: автоматическое определение языка без ручного выбора.
  • Больше 2 000 языковых пар в одном звонке/созвоне: в Google Meet больше нет привязки только к английскому.
  • Перевод речи в речь: сохранение интонации, темпа и высоты голоса в озвучке.
  • Низкая задержка: нет длинных пауз между фразами, речь звучит почти непрерывно.
  • Устойчивость к шуму: модель рассчитана на «живые» условия — звонки, улицу, фоновый шум.
  • Без ручной настройки языков: система сама понимает, на каком языке говорят собеседники.
  • Встроенный SynthID: вся сгенерированная озвучка помечена незаметным водяным знаком.

По продуктам:

  • Разработчики: публичный превью-доступ через Gemini Live API и Google AI Studio.
  • Google Meet:
    • перевод в реальном времени теперь на 70+ языков вместо пяти;
    • больше 2 000 комбинаций языков в одном созвоне;
    • обновлённый интерфейс для быстрого включения перевода;
    • улучшенный сценарий «живого переводчика» в встречах.
  • Google Translate (Android и iOS):
    • обновлённый режим разговора с синхронным голосовым переводом;
    • перевод в наушники с сохранением тембра и интонации;
    • более естественная озвучка собеседника.
  • Android:
    • новый «режим прослушивания»: можно поднести телефон к уху, как при звонке;
    • переведённый звук идёт через разговорный динамик, а не через громкую связь.

Google также сообщает, что все системы перевода в её продуктах уже обрабатывают более триллиона слов в месяц. Gemini 3.5 Live Translate — следующий шаг именно в живом голосовом общении.

Как это работает

Gemini 3.5 Live Translate — потоковая аудиомодель. Она обрабатывает входящий звук в режиме реального времени и параллельно генерирует перевод.

Основные технические принципы:

  • Потоковая обработка речи: система не ждёт конца предложения. Она слушает поток аудио и сразу строит гипотезу перевода.

  • Баланс контекста и скорости: модель иногда сознательно ждёт ещё пару слов, если от них зависит смысл. Это позволяет избежать грубых ошибок при омонимии и сложном синтаксисе, но не превращает диалог в пошаговый.

  • Сохранение параметров голоса: при генерации озвучки модель учитывает:

    • интонацию;
    • темп речи;
    • высоту голоса.

    В итоге голос перевода звучит более естественно и меньше похож на «робота, читающего текст».

  • Автоопределение языка: система анализирует звуковой поток и сама определяет язык из списка 70+ поддерживаемых. Пользователь не настраивает языки вручную.

  • Устойчивость к шуму: модель обучали на данных с реальными помехами. Она умеет отделять голос от фона в непредсказуемых условиях — город, офис, транспорт.

  • Инфраструктура стриминга: через Gemini Live API и Google AI Studio разработчики получают готовый потоковый канал «аудио → перевод → аудио». Не нужно строить свой стриминг-сервер.

  • SynthID в аудио: в каждый сгенерированный аудиофайл вшивается незаметный водяной знак. Его можно обнаружить специальными инструментами и отличить ИИ-озвучку от человеческой.

На этой основе партнёры Google — Agora, Fishjam, LiveKit, Pipecat и Vision Agents — уже встраивают Live Translate в свои платформы для звонков, стриминга и голосовых сервисов.

Отдельный кейс — Grab: сервис такси и доставки тестирует Gemini 3.5 Live Translate для почти мгновенного перевода голосовых звонков между водителями и пассажирами. Сейчас платформа обрабатывает более 10 миллионов голосовых звонков в месяц, и перевод нужен прямо «на линии».

Что это значит для вас

Если вы общаетесь с иностранцами в работе

Для созвонов и переговоров Gemini 3.5 Live Translate даёт несколько сценариев:

  • Google Meet:
    • Переговоры с партнёрами, которые говорят на разных языках. Каждый говорит на своём, система переводит голос в реальном времени.
    • Больше не нужно ограничиваться английским как «общим языком»: Meet поддерживает 70+ языков и 2 000+ комбинаций.
    • Участники слышат перевод без длинных пауз, что особенно важно для дискуссий и брейнштормов.

Минусы и ограничения:

  • Сейчас расширенный перевод в Meet запускается в приватном превью только для части корпоративных клиентов Google Workspace.
  • Для массового доступа придётся дождаться более позднего релиза в этом году.

Если вы часто путешествуете или живёте за границей

Google Translate на Android и iOS получает более удобный режим «живого переводчика»:

  • Можно разговаривать с человеком лицом к лицу, а телефон будет переводить почти синхронно.
  • В наушниках вы слышите перевод с сохранением интонации собеседника.
  • Это удобно в кафе, отелях, на ресепшене, в сервисах.

Но есть нюансы:

  • Для сложных юридических, финансовых и медицинских разговоров такой перевод лучше использовать только как вспомогательный. Нюансы формулировок и ответственность по-прежнему требуют профессионального переводчика.
  • Качество сильно зависит от шума вокруг и скорости речи собеседника.

Если вы делаете продукт или сервис с голосом

Через Gemini Live API и Google AI Studio можно строить свои решения:

  • Приложения для голосового перевода звонков.
  • Платформы живой интерпретации для онлайн-ивентов.
  • Сервисы реального дубляжа контента на другие языки.
  • Инструменты для многоязычной поддержки клиентов.

Плюсы:

  • Не нужно самостоятельно строить стриминг и распознавание речи.
  • Уже есть интеграции с Agora, Fishjam, LiveKit, Pipecat и Vision Agents, что упрощает подключение к существующим видеоплатформам.

Минусы:

  • Придётся учитывать задержку в несколько секунд и проектировать интерфейс так, чтобы пользователям было комфортно.
  • Для юридически значимых переговоров или чувствительных данных важно продумать политику конфиденциальности и хранение аудио.

Если вы в России

Google Meet, Google Translate и доступ к Google AI Studio/Cloud в России работают нестабильно или могут требовать VPN и аккаунт, привязанный к другой стране. Перед тем как закладывать Gemini 3.5 Live Translate в критичный бизнес-процесс, нужно проверить доступность сервисов именно в ваших условиях.

Где лучше не полагаться на Live Translate

  • Юридические контракты, суды, официальные переговоры — риск ошибки перевода слишком высок.
  • Медицинские консультации — нет гарантии точного перевода терминов и рекомендаций.
  • Любые сценарии, где ошибка перевода может повлечь серьёзные последствия.

В этих случаях Live Translate можно использовать как вспомогательный инструмент, но не как единственный канал понимания.

Место на рынке

Gemini 3.5 Live Translate конкурирует не с текстовыми ИИ вроде GPT-4o или Claude 3, а с голосовыми переводчиками и системами синхронного перевода.

По ключевым параметрам:

  • Тип перевода:

    • Gemini 3.5 Live Translate — потоковый перевод «речь → речь» с сохранением интонации.
    • Классические голосовые переводчики чаще работают по схеме «сказал фразу → пауза → услышал перевод».
  • Интеграция в экосистему:

    • Gemini 3.5 Live Translate уже встроен в Google Meet и Google Translate.
    • Для разработчиков есть прямой доступ через Gemini Live API и Google AI Studio.
  • Масштаб использования:

    • Переводческие системы Google уже обрабатывают свыше триллиона слов в месяц. Это даёт большой объём данных для обучения и доработки.

Прямых численных сравнений по скорости или качеству перевода с другими крупными игроками Google не приводит. Но по продуктовой стратегии видно: ставка сделана на «почти синхронный» голосовой перевод внутри уже популярных сервисов, а не на отдельное приложение-переводчик.

Для пользователей это означает, что Live Translate логичнее воспринимать как надстройку над Meet и Translate, а для разработчиков — как компонент для встраивания в существующие голосовые сервисы, а не как самостоятельную платформу.


Читайте также