Fireworks AI в Microsoft Foundry: быстрый inference открытых моделей в Azure — VogueTech

Что нового

Microsoft добавила Fireworks AI в Microsoft Foundry и открыла публичный превью. Теперь в Azure можно запускать открытые языковые модели через высокопроизводительный inference‑движок Fireworks, но с управлением и безопасностью на уровне Foundry.

Ключевые факты:

Fireworks AI уже обрабатывает:
- более 13 триллионов токенов в день;
- около 180 000 запросов в секунду;
- более 1000 токенов в секунду на крупных моделях.
Всё это теперь доступно через Foundry как управляемый сервис в Azure.
В каталоге Foundry с Fireworks AI уже доступны:
- DeepSeek V3.2;
- OpenAI gpt-oss-120b;
- Kimi K2.5;
- MiniMax M2.5 — новая открытая модель в Foundry, сразу с серверлес‑поддержкой.
Поддерживаются два режима оплаты:
- Serverless, pay‑per‑token (оплата за токены, без управления инфраструктурой);
- Provisioned Throughput Units (PTU) — фиксированная выделенная производительность для стабильных нагрузок.
Есть режим bring‑your‑own‑weights (BYOW):
- можно загружать свои квантизованные или дообученные веса и использовать их на том же inference‑стеке Fireworks.

Главное изменение: разработчик получает один вход в Azure (Foundry), где можно выбрать открытую модель Fireworks, развернуть её как serverless или PTU, подключить свои веса и сразу встроить в существующий корпоративный пайплайн — от экспериментов до продакшена.

Как это работает

Конструкция здесь из двух частей: Microsoft Foundry как «операционная система» для ИИ в Azure и Fireworks AI как высокопроизводительный inference‑движок для открытых моделей.

1. Foundry как управляющий слой

Foundry даёт единый контрольный план для всего цикла работы с ИИ:

единый каталог моделей (включая Fireworks AI);
развертывание: serverless или PTU;
управление версиями и регистрацией моделей (в том числе BYOW);
мониторинг и логирование запросов;
оценка качества и A/B‑тесты моделей;
управление доступом, безопасность и соответствие корпоративным политикам.

Разработчик работает с одной Azure‑точкой входа (endpoint Foundry), а дальше Foundry маршрутизирует запросы к нужной модели и провайдеру — в данном случае к Fireworks AI.

2. Fireworks AI как inference‑движок

Fireworks AI берёт на себя тяжёлую часть — быстрый вывод открытых моделей:

высокопроизводительный стек, уже показавший работу в масштабе интернета: 13T токенов в день, ~180k RPS;
оптимизированный генератор токенов, который на крупных моделях выдаёт >1000 токенов в секунду;
поддержка открытых моделей и пользовательских весов (квантизованных или дообученных);
оптимизации под массовый параллельный inference.

В результате:

вы отправляете запрос на endpoint Foundry в Azure;
Foundry решает, какая модель Fireworks должна ответить;
запрос уходит в inference‑движок Fireworks AI, обрабатывается там и возвращается обратно через Foundry с сохранением логов, метрик и политик безопасности Azure.

3. BYOW: свои веса на чужом движке

Режим bring‑your‑own‑weights работает так:

вы тренируете или дообучаете модель где угодно;
загружаете веса (в том числе квантизованные) в Foundry;
регистрируете их как кастомную модель;
Foundry разворачивает её на Fireworks‑стеке без изменения сервинг‑кода.

То есть вы не пишете свой сервер для модели и не поднимаете отдельные кластеры — всё крутится на инфраструктуре Fireworks под управлением Foundry.

Что это значит для вас

Когда это полезно

1. Высоконагруженные продукты на открытых моделях

Если вы строите чат‑бот, ассистент для поддержки, генерацию контента или поиск по документам и ожидаете большой трафик, вам важны:

стабильная задержка;
высокая пропускная способность;
отсутствие возни с кластерами и автоскейлингом.

Fireworks AI уже выдерживает ~180 000 запросов в секунду и генерирует >1000 токенов/с на крупных моделях. Через Foundry вы получаете этот уровень производительности, но с Azure‑инструментами для мониторинга, логирования и безопасности.

2. Команды, которые хотят ставку на открытые модели

Если вы сознательно выбираете открытые модели, чтобы:

иметь больше контроля над качеством и стоимостью;
не зависеть от одного вендора;
дообучать модели под свои данные;

Foundry + Fireworks закрывает типичные боли:

единое место, где можно быстро сравнить несколько открытых моделей (DeepSeek V3.2, gpt-oss-120b, Kimi K2.5, MiniMax M2.5);
быстрый переход от экспериментов к продакшену без смены стека;
BYOW, если вы уже тренировали свои варианты моделей.

3. Эксперименты и R&D

Serverless‑режим с оплатой за токены подходит, если вы:

тестируете разные модели на небольших нагрузках;
делаете прототипы и PoC;
хотите быстро прогнать бенчмарки и подобрать архитектуру.

Вы не резервируете мощности заранее, а платите только за фактическое использование.

4. Стабильные продакшен‑нагрузки

Если у вас уже есть продукт с предсказуемым трафиком, логичнее взять PTU:

фиксированная выделенная производительность;
прогнозируемое время отклика;
понятное бюджетирование.

PTU подойдёт для сценариев вроде постоянного чат‑бота на сайте, офисного ассистента, генерации отчётов и документов по расписанию.

Где это вряд ли поможет

Если вы строите решение строго на проприетарных моделях типа GPT‑4o или Claude 3, это дополнение вам не закроет задачу полностью, но может пригодиться для гибридного стека: проприетарные модели + открытые модели в Fireworks.
Если вашей компании важна полная изоляция без облаков, Foundry в Azure не заменит on‑prem‑развёртывание.

Доступность из России

Microsoft Foundry и Azure официально не ориентированы на российский рынок. Для доступа к Azure‑ресурсам обычно требуется аккаунт в регионах, где сервисы доступны. В реальных условиях российским пользователям часто нужен VPN и юридическое лицо за пределами РФ, чтобы полноценно работать с Azure и, соответственно, с Foundry и Fireworks AI.

Место на рынке

Сейчас крупные игроки предлагают несколько подходов к работе с моделями:

проприетарные модели (GPT‑4o, Claude 3, Gemini) как закрытые API;
открытые модели через отдельные провайдеры inference;
платформы управления жизненным циклом моделей в крупных облаках.

Fireworks AI + Microsoft Foundry попадает в третью категорию, но с чётким фокусом на открытых моделях и высокомасштабном inference.

Что можно зафиксировать по фактам:

Производительность: Fireworks AI уже обрабатывает 13T токенов в день и ~180k запросов/с. Это уровень, который подходит для крупных потребительских и B2B‑сервисов.
Скорость генерации: более 1000 токенов/с на больших моделях — важный аргумент для задач с длинным контекстом и сложными ответами.
Модельный зоопарк: DeepSeek V3.2, gpt-oss-120b, Kimi K2.5 и MiniMax M2.5 сразу доступны через один Azure‑endpoint. Это упрощает сравнение и миграции между моделями.
Операционный слой: Foundry закрывает управление, мониторинг, безопасность и развёртывание, чего часто не хватает «чистым» inference‑провайдерам.

Где есть ограничения:

Цены в исходном материале не раскрыты, поэтому оценить, дешевле это или дороже альтернатив, нельзя.
Сравнения с конкретными моделями вроде GPT‑4o или Claude 3 по качеству или скорости нет, поэтому ориентироваться стоит на собственные бенчмарки через Foundry.

Для кого этот стек выглядит особенно логичным:

крупные компании, которые уже живут в Azure и хотят стандартизировать работу с открытыми моделями;
разработчики, которые не хотят писать свой сервинг для open‑weight моделей, но при этом хотят контролировать веса и конфигурацию;
команды, которым нужен один «центр управления» для агентов, моделей, мониторинга и governance.

Как запустить

Microsoft описывает базовый путь старта через интерфейс Foundry. Шаги выглядят так:

Откройте Microsoft Foundry models в Azure.
В каталоге моделей выберите коллекцию Fireworks AI open models.
Найдите нужную открытую модель, хостящуюся на Fireworks (например, DeepSeek V3.2, gpt-oss-120b, Kimi K2.5 или MiniMax M2.5).
Откройте model card, чтобы посмотреть описание, ограничения и рекомендации по использованию.
Выберите тип развёртывания:
- Serverless для pay‑per‑token;
- PTU для предсказуемой постоянной нагрузки.
Нажмите Deploy и используйте выданный endpoint и ключи в своём приложении.

Дальше вы можете:

подключить модель к своим агентам в Foundry;
настраивать метрики и логи для мониторинга качества и стоимости;
при необходимости загрузить свои веса в режиме BYOW и перевести приложение на кастомную модель без переписывания кода сервинга.

Вывод для практиков

Если вы уже используете Azure и смотрите в сторону открытых моделей, связка Fireworks AI + Microsoft Foundry даёт:

быстрый вход в высокопроизводительный inference без своей инфраструктуры;
единый контрольный центр для моделей, агентов и governance;
возможность принести свои веса и не зависеть от одного вендора.

Если вы работаете из России, нужно учитывать ограничения доступа к Azure и планировать юридическую и сетевую инфраструктуру заранее. Для всех остальных это ещё один серьёзный аргумент в пользу стратегии «open models first» с нормальной производственной обвязкой, а не набором разрозненных сервисов.