Дата публикации
ai_products

Новые GPT‑модели в Microsoft Foundry: Codex 5.3 для кода и Realtime‑1.5 для голоса

Что нового

Microsoft добавила в Foundry три модели от OpenAI, заточенные под реальную разработку и голосовые интерфейсы:

GPT‑5.3‑Codex

  • Объединяет возможности GPT‑5.2‑Codex (код) и GPT‑5.2 (рассуждения и профзнания) в одной модели.
  • По данным OpenAI, работает на 25% быстрее, чем предыдущие версии семейства Codex.
  • Спроектирован для долгих задач: исследования, вызов инструментов, многошаговое выполнение с сохранением контекста.
  • Поддерживает управление по ходу работы: можно менять инструкции во время выполнения, не теряя контекст.
  • Усилен блок computer‑use — лучше справляется с задачами, где нужно «управлять компьютером»: анализ проектов, запуск инструментов, сложные пайплайны.

Тарифы GPT‑5.3‑Codex в Microsoft Foundry:

  • Вход: $1.75 за 1M токенов
  • Кэшированный вход: $0.175 за 1M токенов
  • Выход: $14.00 за 1M токенов

GPT‑Realtime‑1.5 и GPT‑Audio‑1.5

Обе модели ориентированы на живой голосовой диалог с минимальной задержкой. В тестах OpenAI они показывают:

  • +5% к результатам на Big Bench Audio (reasoning — задачи на рассуждение по аудио).
  • +10.23% к точности алфавитно‑цифровой транскрипции.
  • +7% к качеству следования инструкциям.

Ключевые улучшения:

  • Более естественная речь: плавная интонация, лучшее ударение и паузы.
  • Более чистый звук: стабильное качество аудио во всех поддерживаемых голосах.
  • Улучшенное следование системным и пользовательским инструкциям в живом диалоге.
  • Поддержка function calling прямо в аудиопотоке: модель может вызывать инструменты и возвращать результат в рамках голосовой сессии.

Тарифы GPT‑Realtime‑1.5 (за 1M токенов):

  • Текст: вход $4.00, кэшированный вход $0.04, выход $16.0
  • Аудио: вход $32.0, кэшированный вход $0.40, выход $64.00
  • Изображения: вход $4.00, кэшированный вход $0.04, выход $16.0

Тарифы GPT‑Audio‑1.5 (за 1M токенов):

  • Текст: вход $2.50, выход $10.0 (кэшированный вход не заявлен)
  • Аудио: вход $32.00, выход $64.00
  • Изображения: вход $2.50, выход $10.0 (кэшированный вход не заявлен)

Все три модели доступны в Microsoft Foundry (часть Azure OpenAI).

Как это работает

GPT‑5.3‑Codex

GPT‑5.3‑Codex — это единая модель, которая одновременно умеет:

  • Понимать и генерировать код на уровне GPT‑5.2‑Codex.
  • Решать инженерные задачи с использованием знаний и логики GPT‑5.2.

По сути, OpenAI скрестила два направления:

  1. Специализацию по коду: анализ репозиториев, рефакторинг, генерация тестов, миграции.
  2. Общее рассуждение и предметная экспертиза: работа с требованиями, документацией, архитектурой.

Модель оптимизировали под долгие сессии:

  • Она умеет держать в голове большой контекст: от документации до нескольких файлов проекта.
  • Поддерживает многошаговые сценарии: анализ → план → изменения → тесты → исправления.
  • Позволяет менять инструкции «на лету»: разработчик может скорректировать план в середине работы, не перезапуская задачу.

Усиленные возможности computer‑use означают, что GPT‑5.3‑Codex лучше управляет внешними инструментами: запускает пайплайны, вызывает линтеры, тесты, утилиты миграции. Всё это в рамках одного агентного сценария.

GPT‑Realtime‑1.5 и GPT‑Audio‑1.5

Обе модели заточены под низкую задержку в голосовых интерфейсах:

  • Могут принимать аудио на вход и возвращать речь на выход.
  • Понимают инструкции в реальном времени и могут менять поведение прямо во время диалога.

Технически ключевой элемент — function calling в аудиопотоке:

  • Модель слушает пользователя.
  • Определяет, когда нужно вызвать внешний инструмент (например, CRM или систему бронирования).
  • Формирует структурированный запрос к функции, получает ответ и превращает его в голосовой ответ.

Отдельный блок отвечает за просодию — темп, паузы, интонацию. За счёт этого голос звучит меньше как синтезатор и больше как живой оператор.

GPT‑Realtime‑1.5 делает акцент на быстрых диалогах с текстом, аудио и картинками. GPT‑Audio‑1.5 проще по тарифам и фокусируется на аудио‑сценариях, сохраняя поддержку текста и изображений.

Что это значит для вас

Для разработчиков и тимлидов

Когда выбирать GPT‑5.3‑Codex:

  • У вас большой или легаси‑код:
    • рефакторинг монолитов;
    • модернизация старых приложений;
    • разбор запутанных репозиториев.
  • Нужны многошаговые миграции:
    • переход на новые версии фреймворков;
    • смена библиотек;
    • перенос между платформами.
  • Вы строите агентные пайплайны для разработки:
    • анализ требований;
    • генерация плана работ;
    • реализация и тестирование;
    • поиск и исправление дефектов.
  • Важна автоматизация рутины:
    • код‑ревью;
    • генерация тестов;
    • поиск типовых багов.
  • Вы работаете в регулируемых или security‑чувствительных средах и хотите использовать Azure‑инфраструктуру, контроль доступа и аудит.

Где GPT‑5.3‑Codex не лучший выбор:

  • Простые одношаговые задачи «сгенерировать небольшой сниппет» — там может быть выгоднее более дешёвая модель.
  • Сценарии, где вам не нужны долгие сессии и сложные пайплайны.

Когда выбирать GPT‑Realtime‑1.5 или GPT‑Audio‑1.5:

Подойдут, если вам нужны голосовые интерфейсы с минимальной задержкой:

  • Голосовые ассистенты поддержки:
    • контакт‑центры;
    • внутренние helpdesk‑боты;
    • голосовые IVR‑системы нового поколения.
  • Голос в продуктах и устройствах:
    • ассистенты внутри приложений;
    • встроенный голос в гаджетах.
  • Интерактивные стенды и киоски:
    • шоурумы и демо‑зоны;
    • инфокиоски.
  • Hands‑free сценарии:
    • когда пользователю неудобно печатать и нужен диалог голосом.

Где голосовые модели менее уместны:

  • Если задержка не критична и можно обойтись текстовым чатом — это будет дешевле и проще.
  • Если вам не нужен живой диалог, а достаточно офлайн‑обработки аудио (например, пакетная транскрипция).

Доступность из России

Модели работают через Microsoft Foundry и Azure OpenAI. Для российских компаний и частных пользователей доступны не все регионы и тарифы Azure, возможны юридические и технические ограничения. На практике доступ часто требуют:

  • регистрацию в Azure за пределами России;
  • использование зарубежных аккаунтов и платёжных инструментов;
  • в ряде случаев — VPN для работы с консолью и API.

Если вы строите продукт на российский рынок, закладывайте эти ограничения в планирование и оценку рисков.

Место на рынке

GPT‑5.3‑Codex и связка GPT‑Realtime‑1.5 / GPT‑Audio‑1.5 занимают в экосистеме Azure OpenAI нишу «агентов для реальной разработки и голоса».

Факты, которые можно зафиксировать по цифрам из анонса:

  • GPT‑5.3‑Codex на 25% быстрее, чем предыдущие Codex‑модели OpenAI, при этом дороже базовых текстовых моделей за счёт ставки $14 за 1M токенов выхода.
  • Голосовые модели показывают +5–10.23% прирост по качеству на аудио‑бенчмарках и инструкциях, но стоят заметно дороже типичных текстовых моделей (до $64 за 1M аудио‑токенов выхода).

Прямая конкуренция — другие крупные языковые модели с кодовыми и голосовыми возможностями. Однако в этом релизе важнее не сравнение «кто умнее», а связка с Azure:

  • единый конвейер оценки, деплоя и управления в Microsoft Foundry;
  • встроенные механизмы безопасности и контроля доступа;
  • возможность проводить эксперименты и масштабировать продукты в одной среде.

Если вы уже в экосистеме Azure и строите агентные сценарии для разработчиков или голосовых ассистентов, новые GPT‑модели логично рассматривать как основной вариант. Если инфраструктура на других облаках, придётся сравнивать не только качество, но и совокупную стоимость миграции и поддержки.

Как начать в Microsoft Foundry

Microsoft предлагает работать с этими моделями через Foundry как с единой площадкой:

  • выбираете нужную модель (GPT‑5.3‑Codex, GPT‑Realtime‑1.5 или GPT‑Audio‑1.5);
  • настраиваете окружение, политику доступа и лимиты;
  • запускаете эксперименты и оценку качества;
  • после — переводите прототип в продакшн внутри того же контура.

Foundry объединяет:

  • оценку (метрики качества, сравнение конфигураций);
  • деплой (выкатка в продакшн, масштабирование);
  • governance (безопасность, аудит, управление рисками).

Для команд это шанс перестать жить в режиме «вечного прототипа» и довести агентные сценарии до промышленного уровня, не собирая инфраструктуру по кускам.


Читайте также