Новые GPT‑модели в Microsoft Foundry: Codex 5.3 для кода и Realtime‑1.5 для голоса — VogueTech

Что нового

Microsoft добавила в Foundry три модели от OpenAI, заточенные под реальную разработку и голосовые интерфейсы:

GPT‑5.3‑Codex

Объединяет возможности GPT‑5.2‑Codex (код) и GPT‑5.2 (рассуждения и профзнания) в одной модели.
По данным OpenAI, работает на 25% быстрее, чем предыдущие версии семейства Codex.
Спроектирован для долгих задач: исследования, вызов инструментов, многошаговое выполнение с сохранением контекста.
Поддерживает управление по ходу работы: можно менять инструкции во время выполнения, не теряя контекст.
Усилен блок computer‑use — лучше справляется с задачами, где нужно «управлять компьютером»: анализ проектов, запуск инструментов, сложные пайплайны.

Тарифы GPT‑5.3‑Codex в Microsoft Foundry:

Вход: $1.75 за 1M токенов
Кэшированный вход: $0.175 за 1M токенов
Выход: $14.00 за 1M токенов

GPT‑Realtime‑1.5 и GPT‑Audio‑1.5

Обе модели ориентированы на живой голосовой диалог с минимальной задержкой. В тестах OpenAI они показывают:

+5% к результатам на Big Bench Audio (reasoning — задачи на рассуждение по аудио).
+10.23% к точности алфавитно‑цифровой транскрипции.
+7% к качеству следования инструкциям.

Ключевые улучшения:

Более естественная речь: плавная интонация, лучшее ударение и паузы.
Более чистый звук: стабильное качество аудио во всех поддерживаемых голосах.
Улучшенное следование системным и пользовательским инструкциям в живом диалоге.
Поддержка function calling прямо в аудиопотоке: модель может вызывать инструменты и возвращать результат в рамках голосовой сессии.

Тарифы GPT‑Realtime‑1.5 (за 1M токенов):

Текст: вход $4.00, кэшированный вход $0.04, выход $16.0
Аудио: вход $32.0, кэшированный вход $0.40, выход $64.00
Изображения: вход $4.00, кэшированный вход $0.04, выход $16.0

Тарифы GPT‑Audio‑1.5 (за 1M токенов):

Текст: вход $2.50, выход $10.0 (кэшированный вход не заявлен)
Аудио: вход $32.00, выход $64.00
Изображения: вход $2.50, выход $10.0 (кэшированный вход не заявлен)

Все три модели доступны в Microsoft Foundry (часть Azure OpenAI).

Как это работает

GPT‑5.3‑Codex

GPT‑5.3‑Codex — это единая модель, которая одновременно умеет:

Понимать и генерировать код на уровне GPT‑5.2‑Codex.
Решать инженерные задачи с использованием знаний и логики GPT‑5.2.

По сути, OpenAI скрестила два направления:

Специализацию по коду: анализ репозиториев, рефакторинг, генерация тестов, миграции.
Общее рассуждение и предметная экспертиза: работа с требованиями, документацией, архитектурой.

Модель оптимизировали под долгие сессии:

Она умеет держать в голове большой контекст: от документации до нескольких файлов проекта.
Поддерживает многошаговые сценарии: анализ → план → изменения → тесты → исправления.
Позволяет менять инструкции «на лету»: разработчик может скорректировать план в середине работы, не перезапуская задачу.

Усиленные возможности computer‑use означают, что GPT‑5.3‑Codex лучше управляет внешними инструментами: запускает пайплайны, вызывает линтеры, тесты, утилиты миграции. Всё это в рамках одного агентного сценария.

GPT‑Realtime‑1.5 и GPT‑Audio‑1.5

Обе модели заточены под низкую задержку в голосовых интерфейсах:

Могут принимать аудио на вход и возвращать речь на выход.
Понимают инструкции в реальном времени и могут менять поведение прямо во время диалога.

Технически ключевой элемент — function calling в аудиопотоке:

Модель слушает пользователя.
Определяет, когда нужно вызвать внешний инструмент (например, CRM или систему бронирования).
Формирует структурированный запрос к функции, получает ответ и превращает его в голосовой ответ.

Отдельный блок отвечает за просодию — темп, паузы, интонацию. За счёт этого голос звучит меньше как синтезатор и больше как живой оператор.

GPT‑Realtime‑1.5 делает акцент на быстрых диалогах с текстом, аудио и картинками. GPT‑Audio‑1.5 проще по тарифам и фокусируется на аудио‑сценариях, сохраняя поддержку текста и изображений.

Что это значит для вас

Для разработчиков и тимлидов

Когда выбирать GPT‑5.3‑Codex:

У вас большой или легаси‑код:
- рефакторинг монолитов;
- модернизация старых приложений;
- разбор запутанных репозиториев.
Нужны многошаговые миграции:
- переход на новые версии фреймворков;
- смена библиотек;
- перенос между платформами.
Вы строите агентные пайплайны для разработки:
- анализ требований;
- генерация плана работ;
- реализация и тестирование;
- поиск и исправление дефектов.
Важна автоматизация рутины:
- код‑ревью;
- генерация тестов;
- поиск типовых багов.
Вы работаете в регулируемых или security‑чувствительных средах и хотите использовать Azure‑инфраструктуру, контроль доступа и аудит.

Где GPT‑5.3‑Codex не лучший выбор:

Простые одношаговые задачи «сгенерировать небольшой сниппет» — там может быть выгоднее более дешёвая модель.
Сценарии, где вам не нужны долгие сессии и сложные пайплайны.

Когда выбирать GPT‑Realtime‑1.5 или GPT‑Audio‑1.5:

Подойдут, если вам нужны голосовые интерфейсы с минимальной задержкой:

Голосовые ассистенты поддержки:
- контакт‑центры;
- внутренние helpdesk‑боты;
- голосовые IVR‑системы нового поколения.
Голос в продуктах и устройствах:
- ассистенты внутри приложений;
- встроенный голос в гаджетах.
Интерактивные стенды и киоски:
- шоурумы и демо‑зоны;
- инфокиоски.
Hands‑free сценарии:
- когда пользователю неудобно печатать и нужен диалог голосом.

Где голосовые модели менее уместны:

Если задержка не критична и можно обойтись текстовым чатом — это будет дешевле и проще.
Если вам не нужен живой диалог, а достаточно офлайн‑обработки аудио (например, пакетная транскрипция).

Доступность из России

Модели работают через Microsoft Foundry и Azure OpenAI. Для российских компаний и частных пользователей доступны не все регионы и тарифы Azure, возможны юридические и технические ограничения. На практике доступ часто требуют:

регистрацию в Azure за пределами России;
использование зарубежных аккаунтов и платёжных инструментов;
в ряде случаев — VPN для работы с консолью и API.

Если вы строите продукт на российский рынок, закладывайте эти ограничения в планирование и оценку рисков.

Место на рынке

GPT‑5.3‑Codex и связка GPT‑Realtime‑1.5 / GPT‑Audio‑1.5 занимают в экосистеме Azure OpenAI нишу «агентов для реальной разработки и голоса».

Факты, которые можно зафиксировать по цифрам из анонса:

GPT‑5.3‑Codex на 25% быстрее, чем предыдущие Codex‑модели OpenAI, при этом дороже базовых текстовых моделей за счёт ставки $14 за 1M токенов выхода.
Голосовые модели показывают +5–10.23% прирост по качеству на аудио‑бенчмарках и инструкциях, но стоят заметно дороже типичных текстовых моделей (до $64 за 1M аудио‑токенов выхода).

Прямая конкуренция — другие крупные языковые модели с кодовыми и голосовыми возможностями. Однако в этом релизе важнее не сравнение «кто умнее», а связка с Azure:

единый конвейер оценки, деплоя и управления в Microsoft Foundry;
встроенные механизмы безопасности и контроля доступа;
возможность проводить эксперименты и масштабировать продукты в одной среде.

Если вы уже в экосистеме Azure и строите агентные сценарии для разработчиков или голосовых ассистентов, новые GPT‑модели логично рассматривать как основной вариант. Если инфраструктура на других облаках, придётся сравнивать не только качество, но и совокупную стоимость миграции и поддержки.

Как начать в Microsoft Foundry

Microsoft предлагает работать с этими моделями через Foundry как с единой площадкой:

выбираете нужную модель (GPT‑5.3‑Codex, GPT‑Realtime‑1.5 или GPT‑Audio‑1.5);
настраиваете окружение, политику доступа и лимиты;
запускаете эксперименты и оценку качества;
после — переводите прототип в продакшн внутри того же контура.

Foundry объединяет:

оценку (метрики качества, сравнение конфигураций);
деплой (выкатка в продакшн, масштабирование);
governance (безопасность, аудит, управление рисками).

Для команд это шанс перестать жить в режиме «вечного прототипа» и довести агентные сценарии до промышленного уровня, не собирая инфраструктуру по кускам.