- Дата публикации
Новые GPT‑модели в Microsoft Foundry: Codex 5.3 для кода и Realtime‑1.5 для голоса
Что нового
Microsoft добавила в Foundry три модели от OpenAI, заточенные под реальную разработку и голосовые интерфейсы:
GPT‑5.3‑Codex
- Объединяет возможности GPT‑5.2‑Codex (код) и GPT‑5.2 (рассуждения и профзнания) в одной модели.
- По данным OpenAI, работает на 25% быстрее, чем предыдущие версии семейства Codex.
- Спроектирован для долгих задач: исследования, вызов инструментов, многошаговое выполнение с сохранением контекста.
- Поддерживает управление по ходу работы: можно менять инструкции во время выполнения, не теряя контекст.
- Усилен блок computer‑use — лучше справляется с задачами, где нужно «управлять компьютером»: анализ проектов, запуск инструментов, сложные пайплайны.
Тарифы GPT‑5.3‑Codex в Microsoft Foundry:
- Вход: $1.75 за 1M токенов
- Кэшированный вход: $0.175 за 1M токенов
- Выход: $14.00 за 1M токенов
GPT‑Realtime‑1.5 и GPT‑Audio‑1.5
Обе модели ориентированы на живой голосовой диалог с минимальной задержкой. В тестах OpenAI они показывают:
- +5% к результатам на Big Bench Audio (reasoning — задачи на рассуждение по аудио).
- +10.23% к точности алфавитно‑цифровой транскрипции.
- +7% к качеству следования инструкциям.
Ключевые улучшения:
- Более естественная речь: плавная интонация, лучшее ударение и паузы.
- Более чистый звук: стабильное качество аудио во всех поддерживаемых голосах.
- Улучшенное следование системным и пользовательским инструкциям в живом диалоге.
- Поддержка function calling прямо в аудиопотоке: модель может вызывать инструменты и возвращать результат в рамках голосовой сессии.
Тарифы GPT‑Realtime‑1.5 (за 1M токенов):
- Текст: вход $4.00, кэшированный вход $0.04, выход $16.0
- Аудио: вход $32.0, кэшированный вход $0.40, выход $64.00
- Изображения: вход $4.00, кэшированный вход $0.04, выход $16.0
Тарифы GPT‑Audio‑1.5 (за 1M токенов):
- Текст: вход $2.50, выход $10.0 (кэшированный вход не заявлен)
- Аудио: вход $32.00, выход $64.00
- Изображения: вход $2.50, выход $10.0 (кэшированный вход не заявлен)
Все три модели доступны в Microsoft Foundry (часть Azure OpenAI).
Как это работает
GPT‑5.3‑Codex
GPT‑5.3‑Codex — это единая модель, которая одновременно умеет:
- Понимать и генерировать код на уровне GPT‑5.2‑Codex.
- Решать инженерные задачи с использованием знаний и логики GPT‑5.2.
По сути, OpenAI скрестила два направления:
- Специализацию по коду: анализ репозиториев, рефакторинг, генерация тестов, миграции.
- Общее рассуждение и предметная экспертиза: работа с требованиями, документацией, архитектурой.
Модель оптимизировали под долгие сессии:
- Она умеет держать в голове большой контекст: от документации до нескольких файлов проекта.
- Поддерживает многошаговые сценарии: анализ → план → изменения → тесты → исправления.
- Позволяет менять инструкции «на лету»: разработчик может скорректировать план в середине работы, не перезапуская задачу.
Усиленные возможности computer‑use означают, что GPT‑5.3‑Codex лучше управляет внешними инструментами: запускает пайплайны, вызывает линтеры, тесты, утилиты миграции. Всё это в рамках одного агентного сценария.
GPT‑Realtime‑1.5 и GPT‑Audio‑1.5
Обе модели заточены под низкую задержку в голосовых интерфейсах:
- Могут принимать аудио на вход и возвращать речь на выход.
- Понимают инструкции в реальном времени и могут менять поведение прямо во время диалога.
Технически ключевой элемент — function calling в аудиопотоке:
- Модель слушает пользователя.
- Определяет, когда нужно вызвать внешний инструмент (например, CRM или систему бронирования).
- Формирует структурированный запрос к функции, получает ответ и превращает его в голосовой ответ.
Отдельный блок отвечает за просодию — темп, паузы, интонацию. За счёт этого голос звучит меньше как синтезатор и больше как живой оператор.
GPT‑Realtime‑1.5 делает акцент на быстрых диалогах с текстом, аудио и картинками. GPT‑Audio‑1.5 проще по тарифам и фокусируется на аудио‑сценариях, сохраняя поддержку текста и изображений.
Что это значит для вас
Для разработчиков и тимлидов
Когда выбирать GPT‑5.3‑Codex:
- У вас большой или легаси‑код:
- рефакторинг монолитов;
- модернизация старых приложений;
- разбор запутанных репозиториев.
- Нужны многошаговые миграции:
- переход на новые версии фреймворков;
- смена библиотек;
- перенос между платформами.
- Вы строите агентные пайплайны для разработки:
- анализ требований;
- генерация плана работ;
- реализация и тестирование;
- поиск и исправление дефектов.
- Важна автоматизация рутины:
- код‑ревью;
- генерация тестов;
- поиск типовых багов.
- Вы работаете в регулируемых или security‑чувствительных средах и хотите использовать Azure‑инфраструктуру, контроль доступа и аудит.
Где GPT‑5.3‑Codex не лучший выбор:
- Простые одношаговые задачи «сгенерировать небольшой сниппет» — там может быть выгоднее более дешёвая модель.
- Сценарии, где вам не нужны долгие сессии и сложные пайплайны.
Когда выбирать GPT‑Realtime‑1.5 или GPT‑Audio‑1.5:
Подойдут, если вам нужны голосовые интерфейсы с минимальной задержкой:
- Голосовые ассистенты поддержки:
- контакт‑центры;
- внутренние helpdesk‑боты;
- голосовые IVR‑системы нового поколения.
- Голос в продуктах и устройствах:
- ассистенты внутри приложений;
- встроенный голос в гаджетах.
- Интерактивные стенды и киоски:
- шоурумы и демо‑зоны;
- инфокиоски.
- Hands‑free сценарии:
- когда пользователю неудобно печатать и нужен диалог голосом.
Где голосовые модели менее уместны:
- Если задержка не критична и можно обойтись текстовым чатом — это будет дешевле и проще.
- Если вам не нужен живой диалог, а достаточно офлайн‑обработки аудио (например, пакетная транскрипция).
Доступность из России
Модели работают через Microsoft Foundry и Azure OpenAI. Для российских компаний и частных пользователей доступны не все регионы и тарифы Azure, возможны юридические и технические ограничения. На практике доступ часто требуют:
- регистрацию в Azure за пределами России;
- использование зарубежных аккаунтов и платёжных инструментов;
- в ряде случаев — VPN для работы с консолью и API.
Если вы строите продукт на российский рынок, закладывайте эти ограничения в планирование и оценку рисков.
Место на рынке
GPT‑5.3‑Codex и связка GPT‑Realtime‑1.5 / GPT‑Audio‑1.5 занимают в экосистеме Azure OpenAI нишу «агентов для реальной разработки и голоса».
Факты, которые можно зафиксировать по цифрам из анонса:
- GPT‑5.3‑Codex на 25% быстрее, чем предыдущие Codex‑модели OpenAI, при этом дороже базовых текстовых моделей за счёт ставки $14 за 1M токенов выхода.
- Голосовые модели показывают +5–10.23% прирост по качеству на аудио‑бенчмарках и инструкциях, но стоят заметно дороже типичных текстовых моделей (до $64 за 1M аудио‑токенов выхода).
Прямая конкуренция — другие крупные языковые модели с кодовыми и голосовыми возможностями. Однако в этом релизе важнее не сравнение «кто умнее», а связка с Azure:
- единый конвейер оценки, деплоя и управления в Microsoft Foundry;
- встроенные механизмы безопасности и контроля доступа;
- возможность проводить эксперименты и масштабировать продукты в одной среде.
Если вы уже в экосистеме Azure и строите агентные сценарии для разработчиков или голосовых ассистентов, новые GPT‑модели логично рассматривать как основной вариант. Если инфраструктура на других облаках, придётся сравнивать не только качество, но и совокупную стоимость миграции и поддержки.
Как начать в Microsoft Foundry
Microsoft предлагает работать с этими моделями через Foundry как с единой площадкой:
- выбираете нужную модель (GPT‑5.3‑Codex, GPT‑Realtime‑1.5 или GPT‑Audio‑1.5);
- настраиваете окружение, политику доступа и лимиты;
- запускаете эксперименты и оценку качества;
- после — переводите прототип в продакшн внутри того же контура.
Foundry объединяет:
- оценку (метрики качества, сравнение конфигураций);
- деплой (выкатка в продакшн, масштабирование);
- governance (безопасность, аудит, управление рисками).
Для команд это шанс перестать жить в режиме «вечного прототипа» и довести агентные сценарии до промышленного уровня, не собирая инфраструктуру по кускам.