StepFun 3.5 Flash стал самым выгодным ИИ для задач OpenClaw: обошёл Grok, GPT‑5 и Claude — VogueTech

Что появилось / что изменилось

OpenClaw опубликовал свежий рейтинг экономичности ИИ‑моделей на реальных задачах. Лидер — StepFun 3.5 Flash (stepfun/step-3.5-flash).

По данным OpenClaw, StepFun 3.5 Flash набрал 1327±88 баллов в 98 "битвах" (отдельных задачах) и занял 1 место с разбросом рейтинга от 1 до 3. Это значит: даже с учётом статистической погрешности модель почти наверняка остаётся в топ‑3.

Для сравнения, ближайшие конкуренты по тому же тесту:

Grok 4.1 Fast (x-ai/grok-4.1-fast) — 1274±70 баллов, 104 битвы, предполагаемый ранг 1–3.
Minimax M2.7 (minimax/minimax-m2.7) — 1182±75 баллов, 92 битвы, ранг 1–5.
Gemini 3 Flash Preview (google/gemini-3-flash-preview) — 1142±64 балла, 72 битвы, ранг 3–7.
GPT 5.3 Codex (openai/gpt-5.3-codex) — 1136±46 баллов, 105 битв, ранг 3–7.

Ниже по списку идут Claude Haiku 4.5, GPT 5.4, DeepSeek V3.2, Mimo V2 Pro, Gemini 3.1 Pro Preview, Claude Sonnet 4.6, Kimi K2.5, Claude Opus 4.6 и Nemotron 3 Super 120b A12b. Всего в таблице 15 моделей, у Nemotron 3 Super 120b A12b — последнее место с 568±91 баллами при 73 битвах.

Главный вывод: на текущих задачах OpenClaw StepFun 3.5 Flash показывает лучшую комбинацию цены и качества среди протестированных ИИ.

Как это работает

OpenClaw — это арена для ИИ‑агентов. Разработчики запускают разные модели на одинаковых задачах и сравнивают результаты. Важно: это не синтетический бенчмарк, а набор реальных сценариев, где агенты должны довести задачу до результата.

Каждая "битва" — это задача, в которой несколько агентов соревнуются, кто выполнит её лучше с учётом стоимости токенов. Система считает общий score — интегральный показатель, который учитывает успешность агента и расход средств. Отсюда и метрика "cost-effective": не только насколько умный ИИ, но и сколько стоит его работа.

У каждой модели есть доверительный интервал по очкам (например, 1327±88) и разброс ранга (например, 1–3). OpenClaw использует бутстрэп‑оценку: многократно пересобирает выборку задач и смотрит, как меняется место модели. Если разброс узкий, как у StepFun 3.5 Flash и Grok 4.1 Fast, результат более надёжен.

Часть моделей помечена как временные (provisional) — у них меньше битв и шире доверительный интервал. Они уже в рейтинге, но их позиции могут заметно сдвинуться, когда появятся новые данные.

Что это значит для вас

Если вы строите агентов или автоматизируете задачи через LLM, этот рейтинг — короткий путь к выбору "по кошельку".

Когда имеет смысл присмотреться к StepFun 3.5 Flash:

Массовый запуск агентов. Вы гоняете сотни или тысячи задач в день и считаете каждый доллар. StepFun 3.5 Flash сейчас даёт лучший баланс цены и качества в OpenClaw.
Эксперименты с OpenClaw. Если вы тестируете свои пайплайны прямо через эту арену, логично начинать с лидера рейтинга и дальше уже точечно сравнивать с Grok 4.1 Fast, Minimax M2.7 или GPT 5.3 Codex.
Сценарии, где важна стабильность результата. Узкий разброс ранга (1–3) говорит о том, что StepFun 3.5 Flash уверенно держится вверху таблицы, а не выстрелил один раз случайно.

Когда стоит подумать о других моделях:

Если вам критичны конкретные экосистемы. Например, глубокая интеграция с продуктами Google может подтолкнуть к Gemini 3 Flash Preview или Gemini 3.1 Pro Preview, даже если они ниже по cost-effective score.
Если вы уже завязаны на GPT‑линейку. Тогда логично сравнить GPT 5.3 Codex и GPT 5.4 с вашим текущим стеком: они дают 1136±46 и 1011±58 баллов соответственно.
Если важен максимум качества любой ценой. Рейтинг OpenClaw заточен под соотношение цена/результат. Для задач, где стоимость вторична, а нужен максимум точности, придётся отдельно смотреть другие метрики.

Доступность StepFun 3.5 Flash зависит от региона и политики провайдера. Для прямого доступа через зарубежные сервисы может понадобиться VPN и оплата иностранной картой.

Место на рынке

Рейтинг OpenClaw показывает интересную картину расстановки сил в агентных задачах.

В верхушке таблицы довольно плотная группа:

StepFun 3.5 Flash — 1327±88, 98 битв, ранг 1–3.
Grok 4.1 Fast — 1274±70, 104 битвы, ранг 1–3.
Minimax M2.7 — 1182±75, 92 битвы, ранг 1–5.

Дальше идут крупные игроки с заметным отставанием по score:

Gemini 3 Flash Preview — 1142±64, 72 битвы.
GPT 5.3 Codex — 1136±46, 105 битв.
Claude Haiku 4.5 — 1045±60, 102 битвы.
GLM 5 Turbo — 1045±50, 43 битвы.

Отдельно видно, что флагманские версии вроде Claude Opus 4.6 набирают 730±71 баллов при 64 битвах и занимают 14 место, а крупный Nemotron 3 Super 120b A12b замыкает список с 568±91 баллами.

Вывод для рынка простой: в агентных сценариях и при учёте стоимости сейчас выигрывают не самые тяжёлые и дорогие ИИ‑модели, а более лёгкие и агрессивно оптимизированные варианты вроде StepFun 3.5 Flash и Grok 4.1 Fast. Если вы выбираете движок для агентной платформы, таблица OpenClaw даёт хорошую стартовую точку для пилота и бюджетирования.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также