Cloudflare собирает ИИ в один слой: 70+ моделей, единый API и автоматический фейловер для агентов — VogueTech

Что нового

Cloudflare перестраивает свою ИИ-платформу в единый слой инференса, заточенный под агентов и сложные пайплайны:

Один API для всех моделей: теперь через AI.run() можно вызывать не только модели Workers AI, но и внешние — OpenAI, Anthropic и других провайдеров.
Единый каталог: доступ к 70+ моделям от 12+ провайдеров через один эндпоинт и один набор кредитов.
Быстрое переключение между моделями: смена провайдера в коде — это по сути одна строка.
Централизованный учёт затрат: AI Gateway собирает статистику по всем вызовам моделей и позволяет размечать запросы метаданными (userId, teamId, тип пользователя и т.п.).
Автоматические ретраи и фейловер: при сбоях у провайдера Cloudflare может автоматически переключиться на другую доступную площадку той же модели.
Поддержка мультимодальности: помимо текстовых моделей, в каталог входят модели для изображений, видео и речи (через провайдеров вроде Runway, Pixverse, Recraft и др.).
Подготовка Bring Your Own Model: Cloudflare вместе с Replicate готовит возможность заливать свои контейнеризованные модели в Workers AI через Cog.
Оптимизация для агентов и стриминга: упор на минимальное время до первого токена и устойчивый стриминг для длинных агентских сессий.
Интеграция с Agents SDK: для долгоживущих агентов — чекпоинты и восстановление стриминга без повторной оплаты токенов.
Расширенная инфраструктура: запуск на сети Cloudflare с дата-центрами в 330 городах по миру, что снижает сетевую задержку.

Чисел по скорости в миллисекундах или ценам Cloudflare не раскрывает, но делает акцент на времени до первого токена и снижении суммарной задержки за счёт геораспределённой сети и отсутствия лишних «прыжков» по интернету.

Как это работает

Единый слой инференса

Cloudflare превращает AI Gateway + Workers AI в единый слой между вашим кодом и моделью. Логика такая:

Вы пишете код на Workers и вызываете env.AI.run().
В качестве идентификатора модели указываете либо модель из каталога Workers AI, либо стороннюю, например Anthropic.
Cloudflare по этому идентификатору маршрутизирует запрос к нужному провайдеру или к своему хостингу моделей.
AI Gateway выступает прокси: логирует запрос, считает стоимость, проставляет ретраи, фейловер и стриминг.

Пример вызова сторонней модели:

const response = await env.AI.run(
  'anthropic/claude-opus-4-6',
  {
    input: 'What is Cloudflare?',
  },
  {
    gateway: { id: "default" },
  }
);

Cloudflare обещает REST API для тех, кто не использует Workers. Тогда доступ к каталогу будет возможен из любой среды (сервер, бэкенд на другом облаке и т.п.).

Каталог моделей и маршрутизация

Через AI Gateway вы получаете единый каталог:

Открытые модели, размещённые на Workers AI (включая крупные модели для агентов, Kimi K2.5 и real-time voice).
Проприетарные модели крупных игроков: OpenAI, Anthropic и др.
Дополнительные провайдеры, которые Cloudflare подключает через AI Gateway: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu и другие.

Маршрутизация завязана на идентификаторы вида провайдер/модель. Для вас это одна строка в коде, для Cloudflare — логика выбора нужной площадки и, при необходимости, переключение на резервную.

Централизованный биллинг и метаданные

AI Gateway собирает статистику по всем запросам, независимо от того, у какого провайдера вы вызываете модель. Поверх этого можно навесить свою аналитику через метаданные.

Пример с метаданными:

const response = await env.AI.run(
  '@cf/moonshotai/kimi-k2.5',
  {
    prompt: 'What is AI Gateway?'
  },
  {
    metadata: {
      "teamId": "AI",
      "userId": 12345
    }
  }
);

Так можно разложить расходы по:

платным и бесплатным пользователям;
конкретным клиентам (если у вас B2B);
отдельным фичам и workflow внутри продукта.

Bring Your Own Model через Cog

Для кастомных моделей Cloudflare опирается на технологию Cog от Replicate. Схема:

Вы описываете зависимости модели в cog.yaml.
Пишете код инференса в predict.py с классом Predictor.
Собираете контейнер через cog build.
Пушите контейнер в Workers AI.
Вызываете модель через стандартные API Workers AI.

Пример cog.yaml:

build:
  python_version: "3.13"
  python_requirements: requirements.txt

predict: "predict.py:Predictor"

Пример predict.py:

from cog import BasePredictor, Path, Input
import torch

class Predictor(BasePredictor):
    def setup(self):
        """Load the model into memory to make running multiple predictions efficient"""
        self.net = torch.load("weights.pth")

    def predict(
        self,
        image: Path = Input(description="Image to enlarge"),
        scale: float = Input(description="Factor to scale image by", default=1.5)
    ) -> Path:
        """Run a single prediction on the model"""
        # ... pre-processing ...
        output = self.net(input)
        # ... post-processing ...
        return output

Cog берёт на себя упаковку моделей: CUDA, версии Python, загрузка весов и прочий зоопарк зависимостей.

Сейчас основная нагрузка по кастомным моделям лежит на Enterprise-клиентах Cloudflare с выделенными инстансами. Cloudflare готовит публичные API и команды wrangler, чтобы эту механику открыть более широкому кругу пользователей, плюс работает над ускорением холодного старта через GPU snapshotting.

Оптимизация времени до первого токена

Для агентов критично не общее время ответа, а time to first token — когда пользователь впервые видит, что ассистент «заговорил».

Cloudflare оптимизирует этот путь за счёт:

сети дата-центров в 330 городах, что сокращает сетевую задержку до пользователей и до конечных инференс-эндпоинтов;
запуска кода Workers и инференса Workers AI на одной глобальной сети, без лишнего выхода в публичный интернет.

Даже если полная генерация занимает, например, 3 секунды, Cloudflare пытается выжать лишние 50 мс на старте, чтобы агент ощущался «живым», а не тормозным.

Надёжность и фейловер

Для агентов цепочка вызовов может включать 5–10 обращений к разным моделям. Один медленный или упавший провайдер превращает 50 мс задержки в 500 мс и может вызвать каскад ошибок.

Cloudflare решает это так:

AI Gateway умеет автоматически переключать запросы между провайдерами, если одна и та же модель доступна в нескольких местах.
Автоматические ретраи при сбоях апстрима уже встроены.
Для долгих стриминговых ответов AI Gateway буферизует поток независимо от жизни агента.

Если агент, написанный на Agents SDK, оборвал соединение во время стрима, он может переподключиться к AI Gateway и забрать уже сгенерированный ответ без повторного инференса и без повторной оплаты токенов. В связке с чекпоинтами Agents SDK пользователь не увидит обрыва — агент просто продолжит с того места, где остановился.

Интеграция с Replicate

Команда Replicate официально вошла в AI Platform Cloudflare. Практически это означает:

перенос моделей с Replicate в каталог AI Gateway;
перенос хостинга этих моделей на инфраструктуру Cloudflare;
в перспективе — возможность вызывать модели, к которым вы привыкли на Replicate, через AI Gateway и запускать свои контейнеры на Workers AI.

Что это значит для вас

Когда это имеет смысл использовать

1. Если вы строите агентов и сложные пайплайны

Например:

ассистент поддержки, который:
- дешёвой моделью классифицирует запрос;
- крупной reasoning-моделью планирует ответ;
- лёгкой моделью генерирует окончательный текст;
код-агент, который по очереди вызывает несколько моделей: для анализа кода, для поиска по документации, для генерации патча.

В таких сценариях Cloudflare даёт:

единый API для всех моделей в цепочке;
минимальные накладные расходы по сети, если вы используете Workers AI;
автоматический фейловер, чтобы один упавший провайдер не ломал всю сессию.

2. Если вы используете несколько провайдеров одновременно

Сейчас многие компании вызывают в среднем 3,5 модели от разных вендоров. Управлять ценами, ключами и отчётностью в таком зоопарке тяжело.

AI Gateway упрощает жизнь:

один отчёт по расходам вместо разрозненных дашбордов;
метки по пользователям и фичам прямо в запросах;
возможность быстро заменить модель: поменяли идентификатор — и тестируете другого провайдера.

3. Если вам нужен BYO-модель на проде

Вы можете:

натренировать или дообучить свою модель;
упаковать её в Cog-контейнер;
отдать Cloudflare на хостинг в Workers AI.

Это полезно, если вы не хотите держать свой Kubernetes с GPU, но вам важен контроль над архитектурой модели и весами.

4. Если у вас глобальная аудитория

Сеть из 330 дата-центров особенно важна, если пользователи живут в разных регионах. Запросы не летают через полмира до одного дата-центра, а обрабатываются ближе к пользователю.

Где это поможет меньше

Если вы используете одну модель одного провайдера и не планируете ничего менять, выгода от единого слоя и фейловера будет скромной.
Если у вас простой чат-бот, который делает один вызов модели на запрос, задержки и фейловер менее критичны, чем для сложных агентов.
Если вы уже глубоко завязаны на SDK конкретного провайдера с его особыми фичами (например, специфичные инструменты, собственный формат функций), придётся потратить время на адаптацию к унифицированному интерфейсу.

Доступность и Россия

Cloudflare официально не фокусируется на российском рынке, и часть внешних провайдеров (например, OpenAI) может быть недоступна из России напрямую. В таких случаях для работы с некоторыми моделями, скорее всего, придётся использовать VPN или зарубежную инфраструктуру (серверы за пределами РФ, которые обращаются к AI Gateway).

При этом сами Workers и AI Gateway — облачные сервисы, и их доступность в России зависит от сетевых ограничений и политики конкретных провайдеров связи.

Место на рынке

Cloudflare фактически конкурирует не с одной компанией, а с несколькими классами решений:

Собственные API провайдеров моделей (OpenAI, Anthropic, Google и др.).
Платформы-агрегаторы и хостинг моделей (включая тот же Replicate, который теперь интегрирован).
Собственная инфраструктура компаний (свои кластеры GPU, Kubernetes, прокси над модельными API).

Прямых числовых сравнений по скорости или цене Cloudflare не приводит. Вся ставка — на архитектуру:

единый API вместо работы с каждым провайдером по отдельности;
минимизация сетевой задержки за счёт глобальной сети и совместного размещения кода и моделей;
автоматический фейловер и ретраи без вашей логики.

Если сравнивать с «подключиться напрямую к OpenAI и Anthropic», плюсы Cloudflare:

один биллинг вместо нескольких;
единая точка наблюдаемости и логирования;
возможность быстро переключать модели без переписывания бэкенда;
BYO-модели на той же инфраструктуре, что и внешние.

Минусы:

дополнительный слой между вами и моделью — это ещё один вендор, от которого вы зависите;
часть фич конкретных провайдеров может появляться в AI Gateway с задержкой или в упрощённом виде.

С учётом интеграции Replicate Cloudflare движется к роли «общего слоя инференса» для тех, кто не хочет строить свою GPU-инфраструктуру, но при этом использует и сторонние, и свои модели.

Установка / Как запустить

1. Вызов сторонней модели через Workers AI

Если вы уже используете Cloudflare Workers, доступ к моделям через AI Gateway выглядит так:

const response = await env.AI.run(
  'anthropic/claude-opus-4-6',
  {
    input: 'What is Cloudflare?',
  },
  {
    gateway: { id: "default" },
  }
);

Где:

anthropic/claude-opus-4-6 — идентификатор модели из каталога;
gateway.id — выбранный AI Gateway (есть zero-setup дефолтный);
объект с input — ваши данные для инференса.

2. Учёт затрат с помощью метаданных

Чтобы размечать запросы и потом смотреть статистику по разным срезам, добавьте metadata:

const response = await env.AI.run(
  '@cf/moonshotai/kimi-k2.5',
  {
    prompt: 'What is AI Gateway?'
  },
  {
    metadata: {
      "teamId": "AI",
      "userId": 12345
    }
  }
);

После этого в AI Gateway вы увидите расход, разложенный по teamId, userId и другим полям, которые сами придумаете.

3. Подготовка своей модели через Cog

Создайте cog.yaml с описанием окружения:

build:
  python_version: "3.13"
  python_requirements: requirements.txt

predict: "predict.py:Predictor"

Напишите predict.py с классом Predictor:

from cog import BasePredictor, Path, Input
import torch

class Predictor(BasePredictor):
    def setup(self):
        """Load the model into memory to make running multiple predictions efficient"""
        self.net = torch.load("weights.pth")

    def predict(
        self,
        image: Path = Input(description="Image to enlarge"),
        scale: float = Input(description="Factor to scale image by", default=1.5)
    ) -> Path:
        """Run a single prediction on the model"""
        # ... pre-processing ...
        output = self.net(input)
        # ... post-processing ...
        return output

Соберите контейнер:

cog build

Запушьте получившийся контейнер в Workers AI (Cloudflare готовит команды wrangler и API для этого).

После деплоя вы будете вызывать свою модель тем же env.AI.run, как и любую модель из каталога.

4. Что дальше

Чтобы стартовать сейчас:

посмотрите документацию AI Gateway — для настройки шлюза, логирования и фейловера;
изучите Workers AI — для работы с хостящимися у Cloudflare моделями и будущего BYO;
если вы строите агентов, обратите внимание на Agents SDK — он берёт на себя управление состоянием, чекпоинтами и восстановлением сессий поверх AI Gateway.