- Дата публикации
OpenAI запустила голосовой GPT‑Realtime‑2: живой диалог, перевод и транскрипция в реальном времени
Что нового
OpenAI добавила в Realtime API три аудиомодели для голосовых интерфейсов, которые работают в реальном времени:
-
GPT‑Realtime‑2
Голосовой ассистент с рассуждением уровня GPT‑5:- Поддерживает живой диалог, умеет прерываться, уточнять, исправлять курс.
- Понимает контекст на 128K токенов (раньше 32K), что важно для длинных звонков, сложных сценариев поддержки и продаж.
- Умеет параллельно вызывать несколько инструментов (API, базы данных, CRM) и проговаривать, что делает: «проверяю календарь», «ищу рейсы».
- Восстанавливается после сбоев: вместо молчания говорит «у меня сейчас не получается это сделать».
- Лучше держит профессиональную лексику: термины из медицины, недвижимости, имена собственные.
- Управляемый тон: спокойный для решения проблем, более эмоциональный — для хороших новостей, эмпатичный — для сложных ситуаций.
- Настраиваемое «усилие рассуждения»: minimal / low / medium / high / xhigh. По умолчанию low — меньше задержка. Для сложных задач можно включать high или xhigh.
По внутренним аудио‑бенчмаркам OpenAI:
- Big Bench Audio (сложное аудио‑рассуждение): GPT‑Realtime‑2 (high) на 15,2% лучше GPT‑Realtime‑1.5.
- Audio MultiChallenge (многотуровый голосовой диалог): GPT‑Realtime‑2 (xhigh) на 13,8% лучше GPT‑Realtime‑1.5 по следованию инструкциям и управлению контекстом.
Цена GPT‑Realtime‑2:
- Вход: $32 за 1M аудиотокенов (или $0,40 за 1M кэшированных входных токенов).
- Выход: $64 за 1M аудиотокенов.
-
GPT‑Realtime‑Translate
Модель для живого голосового перевода:- Понимает 70+ языков на входе.
- Переводит в 13 языков на выходе.
- Работает в темпе говорящего, включая смену контекста, региональные акценты и профессиональный жаргон.
- Даёт одновременно и голосовой перевод, и текстовую транскрипцию.
BolnaAI протестировала модель на хинди, тамильском и телугу:
- Word Error Rate у GPT‑Realtime‑Translate на 12,5% ниже, чем у любого другого протестированного ими решения.
- Плюс ниже доля «фоллбеков» (когда модель сдаётся), выше завершение задач и задержка, которая позволяет говорить естественно.
Цена GPT‑Realtime‑Translate: $0,034 за минуту.
-
GPT‑Realtime‑Whisper
Стриминговая версия Whisper для расшифровки речи:- Превращает речь в текст в моменте, пока человек говорит.
- Подходит для субтитров, заметок с митингов, живых событий, поддержки, медицины, продаж и рекрутинга.
- Оптимизирована под низкую задержку, чтобы интерфейс ощущался живым.
Цена GPT‑Realtime‑Whisper: $0,017 за минуту.
Все три модели доступны через Realtime API. Для конечных пользователей OpenAI показывает демо GPT‑Realtime‑2 в браузере с голосовым диалогом.
Как это работает
Общая идея Realtime API
OpenAI строит голос вокруг одной и той же логики: модель не просто «слушает и отвечает», а ведёт агентный сценарий.
Модели в Realtime API умеют:
- Принимать аудио в потоке и отвечать голосом с минимальной задержкой.
- Параллельно вызывать внешние инструменты (API, базы, календарь, CRM) и продолжать разговор, пока идёт запрос.
- Держать длинный контекст до 128K токенов в GPT‑Realtime‑2 — это несколько часов диалога или сложный сценарий с кучей данных.
- Управлять «уровнем рассуждения» — фактически это настройка, сколько вычислительных ресурсов GPT‑5‑класса тратит на ответ.
GPT‑Realtime‑2: голосовой «мозг»
Под капотом GPT‑Realtime‑2 работает как голосовая версия большой языковой модели уровня GPT‑5:
- Получает аудиопоток, преобразует его во внутреннее представление.
- Понимает намерения, историю диалога и состояние инструментов.
- При необходимости одновременно вызывает несколько инструментов: например, поиск жилья, проверка расписания, расчёт бюджета.
- Отдаёт частичный голосовой ответ ещё до того, как все инструменты закончат работу, чтобы пользователь не ждал тишину.
- Использует «премблы» — короткие фразы вроде «сейчас посмотрю», которые дают ощущение живого собеседника.
Модель также настроена на устойчивое восстановление:
- Если API вернуло ошибку или данных нет, она не рвёт диалог, а объясняет, что именно не получилось.
- Может переформулировать запрос или предложить обходной путь.
GPT‑Realtime‑Translate: синхронный переводчик
GPT‑Realtime‑Translate обрабатывает речь в несколько шагов:
- Принимает аудио на одном из 70+ поддерживаемых языков.
- Преобразует его в внутренний текстовый формат с учётом акцентов и локальных особенностей.
- Переводит в один из 13 языков на выходе.
- Одновременно генерирует голос и текстовый перевод.
Модель оптимизировали под:
- Низкий Word Error Rate в многоязычной среде.
- Устойчивость к переключению тем и доменов — от бытовых разговоров до отраслевых терминов.
- Задержку, при которой можно вести живой диалог без неловких пауз.
GPT‑Realtime‑Whisper: стриминговая транскрипция
GPT‑Realtime‑Whisper — это Whisper, настроенный под стриминг:
- Модель принимает аудио непрерывным потоком.
- Отдаёт текст кусками по мере распознавания, а не после окончания фразы.
- Подходит для сценариев, где важна скорость, а не идеальная литературная правка.
Транскрипция сразу доступна для дальнейшей обработки: суммирования, поиска по диалогу, автозаполнения CRM и так далее.
Что это значит для вас
Если вы продуктовый менеджер или основатель
Голосовые сценарии, которые раньше требовали собственной ASR‑системы, NLU, оркестратора и TTS, можно собрать вокруг Realtime API.
Примеры, которые уже делает рынок:
-
Zillow использует GPT‑Realtime‑2 для ассистента по недвижимости. Пользователь говорит:
«Найди мне жильё в моём бюджете, избегай шумных улиц и запланируй просмотр в субботу».
Ассистент слушает, уточняет, лезет в базы, проверяет правила, бронирует слоты — всё голосом.
На самом сложном внутреннем стресс‑тесте Zillow после настройки промптов успешность звонков выросла с 69% до 95% — +26 процентных пунктов.
При этом ассистент лучше держит Fair Housing compliance, что критично для рынка жилья. -
Deutsche Telekom тестирует GPT‑Realtime‑Translate для многозадачных голосовых сценариев поддержки, где клиент говорит на удобном ему языке, а система переводит разговор в реальном времени.
-
Priceline строит голосовое управление путешествием: от поиска билетов и отелей до переноса брони после задержки рейса и голосовых апдейтов по ожиданию в TSA.
-
Vimeo показывает, как GPT‑Realtime‑Translate озвучивает обучающее видео на другом языке во время проигрывания, без отдельной локализованной версии.
Где это даёт максимальную пользу:
- Голосовая поддержка и колл‑центры.
- Продажи и консультации, где важно долго вести один диалог и помнить детали.
- Сложные сервисы (недвижимость, медицина, финансы), где клиенту проще «объяснить голосом, что нужно».
- Образовательные продукты с живым общением и практикой языка.
- Мультиязычные платформы: маркетплейсы, SaaS, медиа.
Где лучше не начинать:
- Там, где критична юридическая точность формулировок и требуется только человек (часть медицинских и юридических консультаций).
- Массовые спам‑звонки и обман пользователей — OpenAI прямо запрещает такие сценарии в политике использования.
- Супер‑низкобюджетные продукты, где даже $0,017–0,034 за минуту слишком дорого при большом трафике.
Если вы инженер или архитектор
Сценарии, которые становятся проще:
- Voice‑to‑action: пользователь голосом формулирует задачу, GPT‑Realtime‑2 разбирает намерения, вызывает ваши API и доводит задачу до конца.
- Systems‑to‑voice: ваш бэкенд сам инициирует голосовые подсказки. Например: «Ваш рейс задержали, но стыковка сохраняется. Новый гейт такой‑то, вот кратчайший маршрут, багаж успевает».
- Voice‑to‑voice: двусторонний перевод и сопровождение диалога между людьми на разных языках.
На что обратить внимание при проектировании:
- Контекст 128K — можно хранить историю нескольких взаимодействий, но нужно продумывать очистку и агрегирование, чтобы не тянуть шум.
- Уровень рассуждения:
- minimal/low — для FAQ, простых задач, массовых линий.
- medium/high/xhigh — для сложных сценариев: планирование, бизнес‑анализ, длинные диалоги.
- Стоимость: аудиотокены GPT‑Realtime‑2 дороже текстовых токенов обычных моделей. Для простых задач может быть выгоднее гибрид: Whisper → текст → GPT‑5‑mini.
Если вы работаете с контентом и образованием
Что можно сделать уже сейчас:
- Авто‑субтитры и конспекты для лекций, вебинаров, подкастов через GPT‑Realtime‑Whisper.
- Живой перевод стримов и обучающих видео через GPT‑Realtime‑Translate.
- Голосовых репетиторов по языкам и профессиям на GPT‑Realtime‑2 с разными стилями речи и уровнем сложности.
Доступность из России
OpenAI официально фокусируется на глобальном рынке и не даёт отдельных гарантий по России. Для доступа к API, Codex и демо в браузере часто нужен аккаунт OpenAI и оплата иностранной картой. В ряде случаев пользователи подключаются через VPN и платёжные сервисы других стран. Это нужно учитывать при планировании продукта.
Место на рынке
OpenAI не приводит прямых сравнений с GPT‑4o, Claude или другими моделями по скорости и цене, но даёт несколько опорных точек.
По тому, что есть в цифрах:
- Внутри линейки Realtime OpenAI GPT‑Realtime‑2 заметно сильнее GPT‑Realtime‑1.5:
- +15,2% на Big Bench Audio (сложное аудио‑рассуждение).
- +13,8% на Audio MultiChallenge (многотуровый диалог).
- Zillow на своём самом сложном стресс‑тесте звонков после настройки промптов увидел рост успешности с 69% до 95%. Это серьёзный аргумент для продакшн‑колл‑центров.
По стоимости:
- GPT‑Realtime‑2:
- Вход: $32 за 1M аудиотокенов (или $0,40 за 1M кэшированных).
- Выход: $64 за 1M аудиотокенов.
- GPT‑Realtime‑Translate: $0,034 за минуту.
- GPT‑Realtime‑Whisper: $0,017 за минуту.
Это ставит голосовые сценарии на уровень, где минута разговора стоит сотые доли доллара, но при больших объёмах счёт идёт на сотни и тысячи долларов. Для массовых проектов придётся внимательно считать экономику и, возможно, комбинировать Realtime‑модели с более дешёвыми текстовыми.
По качеству перевода и распознавания:
- BolnaAI на трёх индийских языках получила 12,5% снижение Word Error Rate по сравнению с любым другим протестированным решением.
- Deutsche Telekom тестирует модель в живых многоязычных сценариях связи.
Это сигнал, что GPT‑Realtime‑Translate и GPT‑Realtime‑Whisper уже конкурентоспособны на сложных языках и могут заменить локальные ASR/MT‑системы в части сценариев.
Безопасность и ограничения
OpenAI встроила в Realtime API несколько уровней защиты:
- Над сессиями работают активные классификаторы: если разговор нарушает правила по вредному контенту, API может остановить диалог.
- В Agents SDK разработчики могут добавить свои фильтры и правила.
- Политики использования запрещают использовать ответы для спама, обмана и других вредных задач.
- Разработчики обязаны явно сообщать пользователям, что они разговаривают с ИИ, если это не очевидно из контекста.
Для продуктов с жёсткими регуляторными требованиями (здравоохранение, финансы, госуслуги) придётся поверх OpenAI строить собственные контуры контроля, логирования и аудита.
Как запустить
OpenAI предлагает стартовать через Codex:
- Открыть готовый промпт в Codex, чтобы добавить GPT‑Realtime‑2 в существующее приложение или создать новое.
- Если Codex ещё нет — сначала установить приложение Codex, затем подключить Realtime API.
Код в исходном анонсе не приводится, но общий путь такой:
- Получить ключ API OpenAI.
- Подключить Realtime API в бэкенд.
- Настроить стриминг аудио от пользователя и обратно.
- Задать инструменты (tool calling) и промпты для GPT‑Realtime‑2.
- Тестировать задержку, стоимость и качество на своих сценариях.
Кому это особенно полезно
- Техно‑стартапам, которые строят голосовых ассистентов, колл‑центры, консьерж‑сервисы.
- Крупным сервисам с большой нагрузкой на поддержку и продажу по телефону.
- EdTech‑проектам с живым обучением и языковой практикой.
- Международным платформам, где пользователи говорят на десятках языков.
Кому стоит быть осторожнее:
- Проектам с жёсткими регуляторными требованиями и высокой ценой ошибки.
- Продуктам с очень тонкой маржой, где даже копейки за минуту критичны.
- Командам без доступа к зарубежным платёжным инструментам и стабильному VPN: интеграция может быть затруднена.
Если вы давно думали о голосовом интерфейсе, но пугала сложность стека, Realtime API от OpenAI закрывает большую часть тяжёлой работы: распознавание, понимание, рассуждение, перевод и синтез речи. Осталось решить, какие задачи вы готовы доверить голосовому ИИ — и насколько вы готовы платить за минуту разговора.