Microsoft Foundry научили считать каждый токен: как увидеть реальную стоимость AI-агентов — VogueTech

Что появилось / что изменилось

Microsoft собрала из трёх сервисов Azure полноценный «счётчик» для AI-агентов в Microsoft AI Foundry. Он показывает, сколько стоит каждый запрос — до уровня токенов.

Ключевые новшества:

Поминутная телеметрия по токенам: для каждого вызова агента фиксируются input_tokens, output_tokens, total_tokens и рассчитанная стоимость запроса в долларах.
Разбивка по любому разрезу: можно считать токены и деньги по агенту, по модели, по подписке APIM, продукту, тенанту, пользователю, маршруту или шагу агента.
Период анализа — больше месяца: данные лежат в Application Insights, их можно крутить KQL-запросами за произвольные периоды, а не только стандартный месяц.
Без изменений в коде агентов: трекинг идёт на уровне шлюза Azure API Management, сами агенты в Foundry не нужно дорабатывать.
Единый шлюз для всех Foundry-агентов: любой агент, опубликованный через APIM, подключается к системе учёта одной функцией call_agent() + track_llm_usage() в Python.

По сути, Microsoft превратила связку Foundry + APIM + Application Insights в наблюдаемый AI-шлюз с детальной телеметрией по каждому токену.

Как это работает

Архитектура намеренно простая: три сервиса и один поток данных.

Azure API Management — AI-шлюз. Все запросы к агентам в Microsoft AI Foundry проходят через APIM. Он отвечает за маршрутизацию, rate limit, аутентификацию и трассировку. APIM добавляет служебные заголовки (Ocp-Apim-Trace-Location), по которым можно связать логи шлюза и телеметрию приложения.
Microsoft AI Foundry — запуск агентов и моделей. Агент обрабатывает запрос, в ответе возвращается объект usage с input_tokens, output_tokens, total_tokens.
Python-клиент. В примере используется ноутбук на Python с httpx. Он ходит в APIM, аутентифицируется через DefaultAzureCredential и ключ подписки APIM, вытаскивает usage из ответа и по встроенной таблице цен по моделям считает стоимость запроса.
Application Insights — хранилище телеметрии. Телеметрия уходит через OpenTelemetry в две таблицы:
- customMetrics — накопительные счётчики по токенам и стоимости (prompt, completion, total, cost USD) для дашбордов и алёртов.
- traces — структурированные логи с custom_dimensions: имя агента, модель, operation ID, токены, стоимость каждого запроса.

Дальше всё крутится на Kusto Query Language. Например, запрос по traces с фильтром message == "llm.usage" даёт поминутный лог: когда вызвали агента, какую модель, сколько стоили prompt и completion, сколько всего токенов ушло.

Что это значит для вас

Главная польза — прозрачная экономика AI-агентов в Azure.

Что можно делать на практике:

Разобрать счёт за Azure по косточкам. Узнать, какой агент сжёг больше всего токенов за неделю, какая модель дороже остальных, сколько стоит средний запрос к конкретному ассистенту.
Отловить «золотых» агентов. Если один агент внезапно стал стоить в разы дороже, вы это увидите по токенам и сможете оптимизировать промпты, контекст или маршрутизацию.
Строить свои дашборды и отчёты. Не ограничиваться стандартными графиками Foundry, а собирать собственные панели в Azure на базе KQL — хоть по пользователям, хоть по шагам сложного агента.
Настроить алёрты. Например, если агент превысил дневной лимит по токенам или стоимостью запроса, можно сразу слать уведомление в почту или мессенджер.

Кому это полезно:

Продакт-менеджерам и лидерам команд, которые отвечают за бюджет AI-фич и хотят видеть не только «общий счёт за Azure», но и стоимость конкретных сценариев.
ML/AI-инженерам, которые оптимизируют промпты и цепочки инструментов и хотят мерить эффект не только по качеству, но и по цене токена.
Финансовым и FinOps-командам, которым нужно обосновывать затраты на AI перед руководством и планировать бюджеты.

Ограничения очевидные: решение завязано на Azure. Нужен доступ к Microsoft AI Foundry, Azure API Management и Application Insights. Если ваш стек — AWS или Google Cloud, этот подход напрямую не заработает.

Место на рынке

Microsoft решает очень конкретную боль: разрыв между «мы запустили агентов» и «мы понимаем, сколько стоит каждый запрос».

У OpenAI есть usage-метрики в аккаунте, у Google — отчёты по Vertex AI, но здесь упор на другое:

Глубина разрезов: можно группировать стоимость по APIM-подписке, продукту, тенанту, пользователю, маршруту, шагу агента. Это ближе к уровню бизнес-аналитики, чем к просто счётчику токенов.
Интеграция с Observability-стеком Azure: всё лежит в Application Insights и Azure Monitor Logs. Тем, кто уже живёт в Azure, не нужно тянуть сторонние системы метрик.
Без вмешательства в код агентов: учёт идёт на уровне шлюза, что упрощает поддержку больших парков Foundry-агентов.

Прямых цифр по сравнению с другими решениями Microsoft не приводит: здесь нет разговоров про скорость или цену токена относительно GPT-4o или Claude 3.5. Фокус только на том, чтобы владельцы AI-продуктов в Azure могли точно посчитать, сколько им стоит каждый агент и каждый токен.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также