- Дата публикации
Microsoft Foundry научили считать каждый токен: как увидеть реальную стоимость AI-агентов
Что появилось / что изменилось
Microsoft собрала из трёх сервисов Azure полноценный «счётчик» для AI-агентов в Microsoft AI Foundry. Он показывает, сколько стоит каждый запрос — до уровня токенов.
Ключевые новшества:
- Поминутная телеметрия по токенам: для каждого вызова агента фиксируются
input_tokens,output_tokens,total_tokensи рассчитанная стоимость запроса в долларах. - Разбивка по любому разрезу: можно считать токены и деньги по агенту, по модели, по подписке APIM, продукту, тенанту, пользователю, маршруту или шагу агента.
- Период анализа — больше месяца: данные лежат в Application Insights, их можно крутить KQL-запросами за произвольные периоды, а не только стандартный месяц.
- Без изменений в коде агентов: трекинг идёт на уровне шлюза Azure API Management, сами агенты в Foundry не нужно дорабатывать.
- Единый шлюз для всех Foundry-агентов: любой агент, опубликованный через APIM, подключается к системе учёта одной функцией
call_agent()+track_llm_usage()в Python.
По сути, Microsoft превратила связку Foundry + APIM + Application Insights в наблюдаемый AI-шлюз с детальной телеметрией по каждому токену.
Как это работает
Архитектура намеренно простая: три сервиса и один поток данных.
- Azure API Management — AI-шлюз. Все запросы к агентам в Microsoft AI Foundry проходят через APIM. Он отвечает за маршрутизацию, rate limit, аутентификацию и трассировку. APIM добавляет служебные заголовки (
Ocp-Apim-Trace-Location), по которым можно связать логи шлюза и телеметрию приложения. - Microsoft AI Foundry — запуск агентов и моделей. Агент обрабатывает запрос, в ответе возвращается объект
usageсinput_tokens,output_tokens,total_tokens. - Python-клиент. В примере используется ноутбук на Python с
httpx. Он ходит в APIM, аутентифицируется черезDefaultAzureCredentialи ключ подписки APIM, вытаскиваетusageиз ответа и по встроенной таблице цен по моделям считает стоимость запроса. - Application Insights — хранилище телеметрии. Телеметрия уходит через OpenTelemetry в две таблицы:
customMetrics— накопительные счётчики по токенам и стоимости (prompt, completion, total, cost USD) для дашбордов и алёртов.traces— структурированные логи сcustom_dimensions: имя агента, модель, operation ID, токены, стоимость каждого запроса.
Дальше всё крутится на Kusto Query Language. Например, запрос по traces с фильтром message == "llm.usage" даёт поминутный лог: когда вызвали агента, какую модель, сколько стоили prompt и completion, сколько всего токенов ушло.
Что это значит для вас
Главная польза — прозрачная экономика AI-агентов в Azure.
Что можно делать на практике:
- Разобрать счёт за Azure по косточкам. Узнать, какой агент сжёг больше всего токенов за неделю, какая модель дороже остальных, сколько стоит средний запрос к конкретному ассистенту.
- Отловить «золотых» агентов. Если один агент внезапно стал стоить в разы дороже, вы это увидите по токенам и сможете оптимизировать промпты, контекст или маршрутизацию.
- Строить свои дашборды и отчёты. Не ограничиваться стандартными графиками Foundry, а собирать собственные панели в Azure на базе KQL — хоть по пользователям, хоть по шагам сложного агента.
- Настроить алёрты. Например, если агент превысил дневной лимит по токенам или стоимостью запроса, можно сразу слать уведомление в почту или мессенджер.
Кому это полезно:
- Продакт-менеджерам и лидерам команд, которые отвечают за бюджет AI-фич и хотят видеть не только «общий счёт за Azure», но и стоимость конкретных сценариев.
- ML/AI-инженерам, которые оптимизируют промпты и цепочки инструментов и хотят мерить эффект не только по качеству, но и по цене токена.
- Финансовым и FinOps-командам, которым нужно обосновывать затраты на AI перед руководством и планировать бюджеты.
Ограничения очевидные: решение завязано на Azure. Нужен доступ к Microsoft AI Foundry, Azure API Management и Application Insights. Если ваш стек — AWS или Google Cloud, этот подход напрямую не заработает.
Место на рынке
Microsoft решает очень конкретную боль: разрыв между «мы запустили агентов» и «мы понимаем, сколько стоит каждый запрос».
У OpenAI есть usage-метрики в аккаунте, у Google — отчёты по Vertex AI, но здесь упор на другое:
- Глубина разрезов: можно группировать стоимость по APIM-подписке, продукту, тенанту, пользователю, маршруту, шагу агента. Это ближе к уровню бизнес-аналитики, чем к просто счётчику токенов.
- Интеграция с Observability-стеком Azure: всё лежит в Application Insights и Azure Monitor Logs. Тем, кто уже живёт в Azure, не нужно тянуть сторонние системы метрик.
- Без вмешательства в код агентов: учёт идёт на уровне шлюза, что упрощает поддержку больших парков Foundry-агентов.
Прямых цифр по сравнению с другими решениями Microsoft не приводит: здесь нет разговоров про скорость или цену токена относительно GPT-4o или Claude 3.5. Фокус только на том, чтобы владельцы AI-продуктов в Azure могли точно посчитать, сколько им стоит каждый агент и каждый токен.