OpenAI запустила голосовой GPT‑Realtime‑2: живой диалог, перевод и транскрипция в реальном времени — VogueTech

Что нового

OpenAI добавила в Realtime API три аудиомодели для голосовых интерфейсов, которые работают в реальном времени:

GPT‑Realtime‑2
Голосовой ассистент с рассуждением уровня GPT‑5:
- Поддерживает живой диалог, умеет прерываться, уточнять, исправлять курс.
- Понимает контекст на 128K токенов (раньше 32K), что важно для длинных звонков, сложных сценариев поддержки и продаж.
- Умеет параллельно вызывать несколько инструментов (API, базы данных, CRM) и проговаривать, что делает: «проверяю календарь», «ищу рейсы».
- Восстанавливается после сбоев: вместо молчания говорит «у меня сейчас не получается это сделать».
- Лучше держит профессиональную лексику: термины из медицины, недвижимости, имена собственные.
- Управляемый тон: спокойный для решения проблем, более эмоциональный — для хороших новостей, эмпатичный — для сложных ситуаций.
- Настраиваемое «усилие рассуждения»: minimal / low / medium / high / xhigh. По умолчанию low — меньше задержка. Для сложных задач можно включать high или xhigh.
По внутренним аудио‑бенчмаркам OpenAI:
- Big Bench Audio (сложное аудио‑рассуждение): GPT‑Realtime‑2 (high) на 15,2% лучше GPT‑Realtime‑1.5.
- Audio MultiChallenge (многотуровый голосовой диалог): GPT‑Realtime‑2 (xhigh) на 13,8% лучше GPT‑Realtime‑1.5 по следованию инструкциям и управлению контекстом.
Цена GPT‑Realtime‑2:
- Вход: $32 за 1M аудиотокенов (или $0,40 за 1M кэшированных входных токенов).
- Выход: $64 за 1M аудиотокенов.
GPT‑Realtime‑Translate
Модель для живого голосового перевода:
- Понимает 70+ языков на входе.
- Переводит в 13 языков на выходе.
- Работает в темпе говорящего, включая смену контекста, региональные акценты и профессиональный жаргон.
- Даёт одновременно и голосовой перевод, и текстовую транскрипцию.
BolnaAI протестировала модель на хинди, тамильском и телугу:
- Word Error Rate у GPT‑Realtime‑Translate на 12,5% ниже, чем у любого другого протестированного ими решения.
- Плюс ниже доля «фоллбеков» (когда модель сдаётся), выше завершение задач и задержка, которая позволяет говорить естественно.
Цена GPT‑Realtime‑Translate: $0,034 за минуту.
GPT‑Realtime‑Whisper
Стриминговая версия Whisper для расшифровки речи:
- Превращает речь в текст в моменте, пока человек говорит.
- Подходит для субтитров, заметок с митингов, живых событий, поддержки, медицины, продаж и рекрутинга.
- Оптимизирована под низкую задержку, чтобы интерфейс ощущался живым.
Цена GPT‑Realtime‑Whisper: $0,017 за минуту.

Все три модели доступны через Realtime API. Для конечных пользователей OpenAI показывает демо GPT‑Realtime‑2 в браузере с голосовым диалогом.

Как это работает

Общая идея Realtime API

OpenAI строит голос вокруг одной и той же логики: модель не просто «слушает и отвечает», а ведёт агентный сценарий.

Модели в Realtime API умеют:

Принимать аудио в потоке и отвечать голосом с минимальной задержкой.
Параллельно вызывать внешние инструменты (API, базы, календарь, CRM) и продолжать разговор, пока идёт запрос.
Держать длинный контекст до 128K токенов в GPT‑Realtime‑2 — это несколько часов диалога или сложный сценарий с кучей данных.
Управлять «уровнем рассуждения» — фактически это настройка, сколько вычислительных ресурсов GPT‑5‑класса тратит на ответ.

GPT‑Realtime‑2: голосовой «мозг»

Под капотом GPT‑Realtime‑2 работает как голосовая версия большой языковой модели уровня GPT‑5:

Получает аудиопоток, преобразует его во внутреннее представление.
Понимает намерения, историю диалога и состояние инструментов.
При необходимости одновременно вызывает несколько инструментов: например, поиск жилья, проверка расписания, расчёт бюджета.
Отдаёт частичный голосовой ответ ещё до того, как все инструменты закончат работу, чтобы пользователь не ждал тишину.
Использует «премблы» — короткие фразы вроде «сейчас посмотрю», которые дают ощущение живого собеседника.

Модель также настроена на устойчивое восстановление:

Если API вернуло ошибку или данных нет, она не рвёт диалог, а объясняет, что именно не получилось.
Может переформулировать запрос или предложить обходной путь.

GPT‑Realtime‑Translate: синхронный переводчик

GPT‑Realtime‑Translate обрабатывает речь в несколько шагов:

Принимает аудио на одном из 70+ поддерживаемых языков.
Преобразует его в внутренний текстовый формат с учётом акцентов и локальных особенностей.
Переводит в один из 13 языков на выходе.
Одновременно генерирует голос и текстовый перевод.

Модель оптимизировали под:

Низкий Word Error Rate в многоязычной среде.
Устойчивость к переключению тем и доменов — от бытовых разговоров до отраслевых терминов.
Задержку, при которой можно вести живой диалог без неловких пауз.

GPT‑Realtime‑Whisper: стриминговая транскрипция

GPT‑Realtime‑Whisper — это Whisper, настроенный под стриминг:

Модель принимает аудио непрерывным потоком.
Отдаёт текст кусками по мере распознавания, а не после окончания фразы.
Подходит для сценариев, где важна скорость, а не идеальная литературная правка.

Транскрипция сразу доступна для дальнейшей обработки: суммирования, поиска по диалогу, автозаполнения CRM и так далее.

Что это значит для вас

Если вы продуктовый менеджер или основатель

Голосовые сценарии, которые раньше требовали собственной ASR‑системы, NLU, оркестратора и TTS, можно собрать вокруг Realtime API.

Примеры, которые уже делает рынок:

Zillow использует GPT‑Realtime‑2 для ассистента по недвижимости. Пользователь говорит:
«Найди мне жильё в моём бюджете, избегай шумных улиц и запланируй просмотр в субботу».
Ассистент слушает, уточняет, лезет в базы, проверяет правила, бронирует слоты — всё голосом.
На самом сложном внутреннем стресс‑тесте Zillow после настройки промптов успешность звонков выросла с 69% до 95% — +26 процентных пунктов.
При этом ассистент лучше держит Fair Housing compliance, что критично для рынка жилья.
Deutsche Telekom тестирует GPT‑Realtime‑Translate для многозадачных голосовых сценариев поддержки, где клиент говорит на удобном ему языке, а система переводит разговор в реальном времени.
Priceline строит голосовое управление путешествием: от поиска билетов и отелей до переноса брони после задержки рейса и голосовых апдейтов по ожиданию в TSA.
Vimeo показывает, как GPT‑Realtime‑Translate озвучивает обучающее видео на другом языке во время проигрывания, без отдельной локализованной версии.

Где это даёт максимальную пользу:

Голосовая поддержка и колл‑центры.
Продажи и консультации, где важно долго вести один диалог и помнить детали.
Сложные сервисы (недвижимость, медицина, финансы), где клиенту проще «объяснить голосом, что нужно».
Образовательные продукты с живым общением и практикой языка.
Мультиязычные платформы: маркетплейсы, SaaS, медиа.

Где лучше не начинать:

Там, где критична юридическая точность формулировок и требуется только человек (часть медицинских и юридических консультаций).
Массовые спам‑звонки и обман пользователей — OpenAI прямо запрещает такие сценарии в политике использования.
Супер‑низкобюджетные продукты, где даже $0,017–0,034 за минуту слишком дорого при большом трафике.

Если вы инженер или архитектор

Сценарии, которые становятся проще:

Voice‑to‑action: пользователь голосом формулирует задачу, GPT‑Realtime‑2 разбирает намерения, вызывает ваши API и доводит задачу до конца.
Systems‑to‑voice: ваш бэкенд сам инициирует голосовые подсказки. Например: «Ваш рейс задержали, но стыковка сохраняется. Новый гейт такой‑то, вот кратчайший маршрут, багаж успевает».
Voice‑to‑voice: двусторонний перевод и сопровождение диалога между людьми на разных языках.

На что обратить внимание при проектировании:

Контекст 128K — можно хранить историю нескольких взаимодействий, но нужно продумывать очистку и агрегирование, чтобы не тянуть шум.
Уровень рассуждения:
- minimal/low — для FAQ, простых задач, массовых линий.
- medium/high/xhigh — для сложных сценариев: планирование, бизнес‑анализ, длинные диалоги.
Стоимость: аудиотокены GPT‑Realtime‑2 дороже текстовых токенов обычных моделей. Для простых задач может быть выгоднее гибрид: Whisper → текст → GPT‑5‑mini.

Если вы работаете с контентом и образованием

Что можно сделать уже сейчас:

Авто‑субтитры и конспекты для лекций, вебинаров, подкастов через GPT‑Realtime‑Whisper.
Живой перевод стримов и обучающих видео через GPT‑Realtime‑Translate.
Голосовых репетиторов по языкам и профессиям на GPT‑Realtime‑2 с разными стилями речи и уровнем сложности.

Доступность из России

OpenAI официально фокусируется на глобальном рынке и не даёт отдельных гарантий по России. Для доступа к API, Codex и демо в браузере часто нужен аккаунт OpenAI и оплата иностранной картой. В ряде случаев пользователи подключаются через VPN и платёжные сервисы других стран. Это нужно учитывать при планировании продукта.

Место на рынке

OpenAI не приводит прямых сравнений с GPT‑4o, Claude или другими моделями по скорости и цене, но даёт несколько опорных точек.

По тому, что есть в цифрах:

Внутри линейки Realtime OpenAI GPT‑Realtime‑2 заметно сильнее GPT‑Realtime‑1.5:
- +15,2% на Big Bench Audio (сложное аудио‑рассуждение).
- +13,8% на Audio MultiChallenge (многотуровый диалог).
Zillow на своём самом сложном стресс‑тесте звонков после настройки промптов увидел рост успешности с 69% до 95%. Это серьёзный аргумент для продакшн‑колл‑центров.

По стоимости:

GPT‑Realtime‑2:
- Вход: $32 за 1M аудиотокенов (или $0,40 за 1M кэшированных).
- Выход: $64 за 1M аудиотокенов.
GPT‑Realtime‑Translate: $0,034 за минуту.
GPT‑Realtime‑Whisper: $0,017 за минуту.

Это ставит голосовые сценарии на уровень, где минута разговора стоит сотые доли доллара, но при больших объёмах счёт идёт на сотни и тысячи долларов. Для массовых проектов придётся внимательно считать экономику и, возможно, комбинировать Realtime‑модели с более дешёвыми текстовыми.

По качеству перевода и распознавания:

BolnaAI на трёх индийских языках получила 12,5% снижение Word Error Rate по сравнению с любым другим протестированным решением.
Deutsche Telekom тестирует модель в живых многоязычных сценариях связи.

Это сигнал, что GPT‑Realtime‑Translate и GPT‑Realtime‑Whisper уже конкурентоспособны на сложных языках и могут заменить локальные ASR/MT‑системы в части сценариев.

Безопасность и ограничения

OpenAI встроила в Realtime API несколько уровней защиты:

Над сессиями работают активные классификаторы: если разговор нарушает правила по вредному контенту, API может остановить диалог.
В Agents SDK разработчики могут добавить свои фильтры и правила.
Политики использования запрещают использовать ответы для спама, обмана и других вредных задач.
Разработчики обязаны явно сообщать пользователям, что они разговаривают с ИИ, если это не очевидно из контекста.

Для продуктов с жёсткими регуляторными требованиями (здравоохранение, финансы, госуслуги) придётся поверх OpenAI строить собственные контуры контроля, логирования и аудита.

Как запустить

OpenAI предлагает стартовать через Codex:

Открыть готовый промпт в Codex, чтобы добавить GPT‑Realtime‑2 в существующее приложение или создать новое.
Если Codex ещё нет — сначала установить приложение Codex, затем подключить Realtime API.

Код в исходном анонсе не приводится, но общий путь такой:

Получить ключ API OpenAI.
Подключить Realtime API в бэкенд.
Настроить стриминг аудио от пользователя и обратно.
Задать инструменты (tool calling) и промпты для GPT‑Realtime‑2.
Тестировать задержку, стоимость и качество на своих сценариях.

Кому это особенно полезно

Техно‑стартапам, которые строят голосовых ассистентов, колл‑центры, консьерж‑сервисы.
Крупным сервисам с большой нагрузкой на поддержку и продажу по телефону.
EdTech‑проектам с живым обучением и языковой практикой.
Международным платформам, где пользователи говорят на десятках языков.

Кому стоит быть осторожнее:

Проектам с жёсткими регуляторными требованиями и высокой ценой ошибки.
Продуктам с очень тонкой маржой, где даже копейки за минуту критичны.
Командам без доступа к зарубежным платёжным инструментам и стабильному VPN: интеграция может быть затруднена.

Если вы давно думали о голосовом интерфейсе, но пугала сложность стека, Realtime API от OpenAI закрывает большую часть тяжёлой работы: распознавание, понимание, рассуждение, перевод и синтез речи. Осталось решить, какие задачи вы готовы доверить голосовому ИИ — и насколько вы готовы платить за минуту разговора.