Дата публикации
ai_products

OpenAI запустила голосовой GPT‑Realtime‑2: живой диалог, перевод и транскрипция в реальном времени

Что нового

OpenAI добавила в Realtime API три аудиомодели для голосовых интерфейсов, которые работают в реальном времени:

  1. GPT‑Realtime‑2
    Голосовой ассистент с рассуждением уровня GPT‑5:

    • Поддерживает живой диалог, умеет прерываться, уточнять, исправлять курс.
    • Понимает контекст на 128K токенов (раньше 32K), что важно для длинных звонков, сложных сценариев поддержки и продаж.
    • Умеет параллельно вызывать несколько инструментов (API, базы данных, CRM) и проговаривать, что делает: «проверяю календарь», «ищу рейсы».
    • Восстанавливается после сбоев: вместо молчания говорит «у меня сейчас не получается это сделать».
    • Лучше держит профессиональную лексику: термины из медицины, недвижимости, имена собственные.
    • Управляемый тон: спокойный для решения проблем, более эмоциональный — для хороших новостей, эмпатичный — для сложных ситуаций.
    • Настраиваемое «усилие рассуждения»: minimal / low / medium / high / xhigh. По умолчанию low — меньше задержка. Для сложных задач можно включать high или xhigh.

    По внутренним аудио‑бенчмаркам OpenAI:

    • Big Bench Audio (сложное аудио‑рассуждение): GPT‑Realtime‑2 (high) на 15,2% лучше GPT‑Realtime‑1.5.
    • Audio MultiChallenge (многотуровый голосовой диалог): GPT‑Realtime‑2 (xhigh) на 13,8% лучше GPT‑Realtime‑1.5 по следованию инструкциям и управлению контекстом.

    Цена GPT‑Realtime‑2:

    • Вход: $32 за 1M аудиотокенов (или $0,40 за 1M кэшированных входных токенов).
    • Выход: $64 за 1M аудиотокенов.
  2. GPT‑Realtime‑Translate
    Модель для живого голосового перевода:

    • Понимает 70+ языков на входе.
    • Переводит в 13 языков на выходе.
    • Работает в темпе говорящего, включая смену контекста, региональные акценты и профессиональный жаргон.
    • Даёт одновременно и голосовой перевод, и текстовую транскрипцию.

    BolnaAI протестировала модель на хинди, тамильском и телугу:

    • Word Error Rate у GPT‑Realtime‑Translate на 12,5% ниже, чем у любого другого протестированного ими решения.
    • Плюс ниже доля «фоллбеков» (когда модель сдаётся), выше завершение задач и задержка, которая позволяет говорить естественно.

    Цена GPT‑Realtime‑Translate: $0,034 за минуту.

  3. GPT‑Realtime‑Whisper
    Стриминговая версия Whisper для расшифровки речи:

    • Превращает речь в текст в моменте, пока человек говорит.
    • Подходит для субтитров, заметок с митингов, живых событий, поддержки, медицины, продаж и рекрутинга.
    • Оптимизирована под низкую задержку, чтобы интерфейс ощущался живым.

    Цена GPT‑Realtime‑Whisper: $0,017 за минуту.

Все три модели доступны через Realtime API. Для конечных пользователей OpenAI показывает демо GPT‑Realtime‑2 в браузере с голосовым диалогом.

Как это работает

Общая идея Realtime API

OpenAI строит голос вокруг одной и той же логики: модель не просто «слушает и отвечает», а ведёт агентный сценарий.

Модели в Realtime API умеют:

  • Принимать аудио в потоке и отвечать голосом с минимальной задержкой.
  • Параллельно вызывать внешние инструменты (API, базы, календарь, CRM) и продолжать разговор, пока идёт запрос.
  • Держать длинный контекст до 128K токенов в GPT‑Realtime‑2 — это несколько часов диалога или сложный сценарий с кучей данных.
  • Управлять «уровнем рассуждения» — фактически это настройка, сколько вычислительных ресурсов GPT‑5‑класса тратит на ответ.

GPT‑Realtime‑2: голосовой «мозг»

Под капотом GPT‑Realtime‑2 работает как голосовая версия большой языковой модели уровня GPT‑5:

  • Получает аудиопоток, преобразует его во внутреннее представление.
  • Понимает намерения, историю диалога и состояние инструментов.
  • При необходимости одновременно вызывает несколько инструментов: например, поиск жилья, проверка расписания, расчёт бюджета.
  • Отдаёт частичный голосовой ответ ещё до того, как все инструменты закончат работу, чтобы пользователь не ждал тишину.
  • Использует «премблы» — короткие фразы вроде «сейчас посмотрю», которые дают ощущение живого собеседника.

Модель также настроена на устойчивое восстановление:

  • Если API вернуло ошибку или данных нет, она не рвёт диалог, а объясняет, что именно не получилось.
  • Может переформулировать запрос или предложить обходной путь.

GPT‑Realtime‑Translate: синхронный переводчик

GPT‑Realtime‑Translate обрабатывает речь в несколько шагов:

  1. Принимает аудио на одном из 70+ поддерживаемых языков.
  2. Преобразует его в внутренний текстовый формат с учётом акцентов и локальных особенностей.
  3. Переводит в один из 13 языков на выходе.
  4. Одновременно генерирует голос и текстовый перевод.

Модель оптимизировали под:

  • Низкий Word Error Rate в многоязычной среде.
  • Устойчивость к переключению тем и доменов — от бытовых разговоров до отраслевых терминов.
  • Задержку, при которой можно вести живой диалог без неловких пауз.

GPT‑Realtime‑Whisper: стриминговая транскрипция

GPT‑Realtime‑Whisper — это Whisper, настроенный под стриминг:

  • Модель принимает аудио непрерывным потоком.
  • Отдаёт текст кусками по мере распознавания, а не после окончания фразы.
  • Подходит для сценариев, где важна скорость, а не идеальная литературная правка.

Транскрипция сразу доступна для дальнейшей обработки: суммирования, поиска по диалогу, автозаполнения CRM и так далее.

Что это значит для вас

Если вы продуктовый менеджер или основатель

Голосовые сценарии, которые раньше требовали собственной ASR‑системы, NLU, оркестратора и TTS, можно собрать вокруг Realtime API.

Примеры, которые уже делает рынок:

  • Zillow использует GPT‑Realtime‑2 для ассистента по недвижимости. Пользователь говорит:
    «Найди мне жильё в моём бюджете, избегай шумных улиц и запланируй просмотр в субботу».
    Ассистент слушает, уточняет, лезет в базы, проверяет правила, бронирует слоты — всё голосом.
    На самом сложном внутреннем стресс‑тесте Zillow после настройки промптов успешность звонков выросла с 69% до 95% — +26 процентных пунктов.
    При этом ассистент лучше держит Fair Housing compliance, что критично для рынка жилья.

  • Deutsche Telekom тестирует GPT‑Realtime‑Translate для многозадачных голосовых сценариев поддержки, где клиент говорит на удобном ему языке, а система переводит разговор в реальном времени.

  • Priceline строит голосовое управление путешествием: от поиска билетов и отелей до переноса брони после задержки рейса и голосовых апдейтов по ожиданию в TSA.

  • Vimeo показывает, как GPT‑Realtime‑Translate озвучивает обучающее видео на другом языке во время проигрывания, без отдельной локализованной версии.

Где это даёт максимальную пользу:

  • Голосовая поддержка и колл‑центры.
  • Продажи и консультации, где важно долго вести один диалог и помнить детали.
  • Сложные сервисы (недвижимость, медицина, финансы), где клиенту проще «объяснить голосом, что нужно».
  • Образовательные продукты с живым общением и практикой языка.
  • Мультиязычные платформы: маркетплейсы, SaaS, медиа.

Где лучше не начинать:

  • Там, где критична юридическая точность формулировок и требуется только человек (часть медицинских и юридических консультаций).
  • Массовые спам‑звонки и обман пользователей — OpenAI прямо запрещает такие сценарии в политике использования.
  • Супер‑низкобюджетные продукты, где даже $0,017–0,034 за минуту слишком дорого при большом трафике.

Если вы инженер или архитектор

Сценарии, которые становятся проще:

  • Voice‑to‑action: пользователь голосом формулирует задачу, GPT‑Realtime‑2 разбирает намерения, вызывает ваши API и доводит задачу до конца.
  • Systems‑to‑voice: ваш бэкенд сам инициирует голосовые подсказки. Например: «Ваш рейс задержали, но стыковка сохраняется. Новый гейт такой‑то, вот кратчайший маршрут, багаж успевает».
  • Voice‑to‑voice: двусторонний перевод и сопровождение диалога между людьми на разных языках.

На что обратить внимание при проектировании:

  • Контекст 128K — можно хранить историю нескольких взаимодействий, но нужно продумывать очистку и агрегирование, чтобы не тянуть шум.
  • Уровень рассуждения:
    • minimal/low — для FAQ, простых задач, массовых линий.
    • medium/high/xhigh — для сложных сценариев: планирование, бизнес‑анализ, длинные диалоги.
  • Стоимость: аудиотокены GPT‑Realtime‑2 дороже текстовых токенов обычных моделей. Для простых задач может быть выгоднее гибрид: Whisper → текст → GPT‑5‑mini.

Если вы работаете с контентом и образованием

Что можно сделать уже сейчас:

  • Авто‑субтитры и конспекты для лекций, вебинаров, подкастов через GPT‑Realtime‑Whisper.
  • Живой перевод стримов и обучающих видео через GPT‑Realtime‑Translate.
  • Голосовых репетиторов по языкам и профессиям на GPT‑Realtime‑2 с разными стилями речи и уровнем сложности.

Доступность из России

OpenAI официально фокусируется на глобальном рынке и не даёт отдельных гарантий по России. Для доступа к API, Codex и демо в браузере часто нужен аккаунт OpenAI и оплата иностранной картой. В ряде случаев пользователи подключаются через VPN и платёжные сервисы других стран. Это нужно учитывать при планировании продукта.

Место на рынке

OpenAI не приводит прямых сравнений с GPT‑4o, Claude или другими моделями по скорости и цене, но даёт несколько опорных точек.

По тому, что есть в цифрах:

  • Внутри линейки Realtime OpenAI GPT‑Realtime‑2 заметно сильнее GPT‑Realtime‑1.5:
    • +15,2% на Big Bench Audio (сложное аудио‑рассуждение).
    • +13,8% на Audio MultiChallenge (многотуровый диалог).
  • Zillow на своём самом сложном стресс‑тесте звонков после настройки промптов увидел рост успешности с 69% до 95%. Это серьёзный аргумент для продакшн‑колл‑центров.

По стоимости:

  • GPT‑Realtime‑2:
    • Вход: $32 за 1M аудиотокенов (или $0,40 за 1M кэшированных).
    • Выход: $64 за 1M аудиотокенов.
  • GPT‑Realtime‑Translate: $0,034 за минуту.
  • GPT‑Realtime‑Whisper: $0,017 за минуту.

Это ставит голосовые сценарии на уровень, где минута разговора стоит сотые доли доллара, но при больших объёмах счёт идёт на сотни и тысячи долларов. Для массовых проектов придётся внимательно считать экономику и, возможно, комбинировать Realtime‑модели с более дешёвыми текстовыми.

По качеству перевода и распознавания:

  • BolnaAI на трёх индийских языках получила 12,5% снижение Word Error Rate по сравнению с любым другим протестированным решением.
  • Deutsche Telekom тестирует модель в живых многоязычных сценариях связи.

Это сигнал, что GPT‑Realtime‑Translate и GPT‑Realtime‑Whisper уже конкурентоспособны на сложных языках и могут заменить локальные ASR/MT‑системы в части сценариев.

Безопасность и ограничения

OpenAI встроила в Realtime API несколько уровней защиты:

  • Над сессиями работают активные классификаторы: если разговор нарушает правила по вредному контенту, API может остановить диалог.
  • В Agents SDK разработчики могут добавить свои фильтры и правила.
  • Политики использования запрещают использовать ответы для спама, обмана и других вредных задач.
  • Разработчики обязаны явно сообщать пользователям, что они разговаривают с ИИ, если это не очевидно из контекста.

Для продуктов с жёсткими регуляторными требованиями (здравоохранение, финансы, госуслуги) придётся поверх OpenAI строить собственные контуры контроля, логирования и аудита.

Как запустить

OpenAI предлагает стартовать через Codex:

  • Открыть готовый промпт в Codex, чтобы добавить GPT‑Realtime‑2 в существующее приложение или создать новое.
  • Если Codex ещё нет — сначала установить приложение Codex, затем подключить Realtime API.

Код в исходном анонсе не приводится, но общий путь такой:

  1. Получить ключ API OpenAI.
  2. Подключить Realtime API в бэкенд.
  3. Настроить стриминг аудио от пользователя и обратно.
  4. Задать инструменты (tool calling) и промпты для GPT‑Realtime‑2.
  5. Тестировать задержку, стоимость и качество на своих сценариях.

Кому это особенно полезно

  • Техно‑стартапам, которые строят голосовых ассистентов, колл‑центры, консьерж‑сервисы.
  • Крупным сервисам с большой нагрузкой на поддержку и продажу по телефону.
  • EdTech‑проектам с живым обучением и языковой практикой.
  • Международным платформам, где пользователи говорят на десятках языков.

Кому стоит быть осторожнее:

  • Проектам с жёсткими регуляторными требованиями и высокой ценой ошибки.
  • Продуктам с очень тонкой маржой, где даже копейки за минуту критичны.
  • Командам без доступа к зарубежным платёжным инструментам и стабильному VPN: интеграция может быть затруднена.

Если вы давно думали о голосовом интерфейсе, но пугала сложность стека, Realtime API от OpenAI закрывает большую часть тяжёлой работы: распознавание, понимание, рассуждение, перевод и синтез речи. Осталось решить, какие задачи вы готовы доверить голосовому ИИ — и насколько вы готовы платить за минуту разговора.


Читайте также