Replicate вдвое снижает цены на запуск ИИ‑моделей — но меняет правила для приватных — VogueTech

Что появилось / что изменилось

Replicate пересобрала ценообразование для своих ИИ‑моделей.

Главное:

Публичные модели подешевели вдвое — это уже действует и распространяется на весь текущий месяц задним числом. Ничего включать не нужно.
Приватные модели тоже подешевеют по секунде, но появится оплата за старт и простой инстанса. Для новых пользователей это будет настройкой по умолчанию, для текущих — опцией.

Новые цены по железу (публичные модели, и те приватные, где включите новую схему):

CPU: было $0.000200/сек, стало $0.000100/сек (≈ $0.36/час)
Nvidia T4: было $0.000550/сек, стало $0.000225/сек (≈ $0.81/час)
Nvidia A40: было $0.001300/сек, стало $0.000575/сек (≈ $2.07/час)
Nvidia A100 40GB: было $0.002300/сек, стало $0.001150/сек (≈ $4.14/час)
Nvidia A100 80GB: было $0.003200/сек, стало $0.001400/сек (≈ $5.04/час)

Снижение касается всех публичных моделей на Replicate — от SDXL до Llama 2.

Для существующих пользователей приватных моделей ничего не меняется, пока вы сами не переключитесь на новую схему.

Как это работает

Когда вы запускаете приватную модель на Replicate, она живет на отдельном GPU‑инстансе.

Жизненный цикл такой:

Replicate поднимает инстанс с нужным GPU.
Загружает на него вашу модель.
Выполняет предсказание.
Держит инстанс в режиме простоя еще какое‑то время, чтобы следующие запросы стартовали быстро.
Если запросов нет, инстанс «скейлится до нуля» и выключается.

Сейчас Replicate берет деньги только за время выполнения предсказаний. Старты и простой вы получаете «бесплатно».

В новой схеме для приватных моделей Replicate:

продолжает считать полную цену за время предсказаний;
добавляет оплату за время старта и простоя по половине секунданой ставки для выбранного железа.

Пример: если вы используете A100 40GB по новой схеме, предсказание стоит $0.001150/сек, а старт и простой — по $0.000575/сек.

Плюс Replicate обещает дать ручной контроль: вы сможете задать, как долго держать инстанс в простое перед автоотключением. Это позволит балансировать между скоростью ответа и счетом за простой.

Что это значит для вас

Если вы используете только публичные модели (SDXL, Llama 2 и другие), все просто:

ваш счет за этот месяц заметно снизится, иногда почти вдвое;
ничего включать, мигрировать или переписывать не нужно.

Публичные модели на Replicate удобны для:

прототипирования AI‑функций в продуктах;
разовых задач: генерация изображений, быстрые эксперименты с LLM;
небольших pet‑проектов и демо.

Если вы активно крутите приватные модели — картина сложнее.

Когда новая схема выгодна:

у вас много запросов к модели, инстанс почти всегда занят;
вы строите продакшн‑сервис с постоянным трафиком;
вы хотите предсказуемую задержку без холодных стартов.

В этом случае вы эффективно используете GPU, и снижение секунданой цены перекрывает оплату за старт и простой.

Когда лучше остаться на старой схеме:

у вас мало запросов, модель запускается «по настроению» пару раз в день;
вы делаете внутренние эксперименты без стабильного трафика;
вам не критична задержка первого запроса.

Тогда старый вариант, где вы платите только за сами предсказания, чаще всего дешевле.

Важно: Replicate официально не блокирует Россию, но доступ зависит от вашего провайдера и политики конкретного сервиса. Если у вас есть ограничения по зарубежным платежам, может понадобиться зарубежная карта или аккаунт юрлица вне РФ. VPN может потребоваться, если ваш провайдер режет доступ к части зарубежной инфраструктуры.

Место на рынке

Replicate конкурирует не с GPT‑4o или Claude 3 напрямую, а с платформами уровня AWS SageMaker, Google Vertex AI и Azure Machine Learning, где вы тоже платите за время работы инстансов с GPU.

По модели оплаты Replicate ближе к «pay‑per‑second» за inference, чем к подписке по токенам как у GPT‑4o или Claude 3.

Сравнить можно по нескольким параметрам:

Простота старта. Replicate обычно проще, чем SageMaker или Vertex AI: меньше инфраструктурной обвязки, больше готовых публичных моделей.
Прозрачность цен. Почасовые ставки на GPU вполне сопоставимы с облаками. Например, A100 80GB за $5.04/час — в диапазоне цен AWS и GCP для on‑demand инстансов, иногда даже дешевле, но многое зависит от региона и скидок у облаков.
Модель биллинга. Replicate продает именно время работы модели, а не токены. Если вы запускаете SDXL или Llama 2 с тяжелыми запросами, вам проще считать бюджет по секундам, чем по токенам.

Если вам нужен «один универсальный мозг» уровня GPT‑4o или Claude 3, удобнее идти напрямую к OpenAI или Anthropic. Если вы разворачиваете свои модели или хотите тонко управлять железом под конкретные задачи — Replicate остается интересным вариантом, особенно с новыми, более низкими ставками на GPU.