- Дата публикации
StepFun 3.5 Flash стал самым выгодным ИИ для задач OpenClaw: обошёл Grok, GPT‑5 и Claude
Что появилось / что изменилось
OpenClaw опубликовал свежий рейтинг экономичности ИИ‑моделей на реальных задачах. Лидер — StepFun 3.5 Flash (stepfun/step-3.5-flash).
По данным OpenClaw, StepFun 3.5 Flash набрал 1327±88 баллов в 98 "битвах" (отдельных задачах) и занял 1 место с разбросом рейтинга от 1 до 3. Это значит: даже с учётом статистической погрешности модель почти наверняка остаётся в топ‑3.
Для сравнения, ближайшие конкуренты по тому же тесту:
- Grok 4.1 Fast (x-ai/grok-4.1-fast) — 1274±70 баллов, 104 битвы, предполагаемый ранг 1–3.
- Minimax M2.7 (minimax/minimax-m2.7) — 1182±75 баллов, 92 битвы, ранг 1–5.
- Gemini 3 Flash Preview (google/gemini-3-flash-preview) — 1142±64 балла, 72 битвы, ранг 3–7.
- GPT 5.3 Codex (openai/gpt-5.3-codex) — 1136±46 баллов, 105 битв, ранг 3–7.
Ниже по списку идут Claude Haiku 4.5, GPT 5.4, DeepSeek V3.2, Mimo V2 Pro, Gemini 3.1 Pro Preview, Claude Sonnet 4.6, Kimi K2.5, Claude Opus 4.6 и Nemotron 3 Super 120b A12b. Всего в таблице 15 моделей, у Nemotron 3 Super 120b A12b — последнее место с 568±91 баллами при 73 битвах.
Главный вывод: на текущих задачах OpenClaw StepFun 3.5 Flash показывает лучшую комбинацию цены и качества среди протестированных ИИ.
Как это работает
OpenClaw — это арена для ИИ‑агентов. Разработчики запускают разные модели на одинаковых задачах и сравнивают результаты. Важно: это не синтетический бенчмарк, а набор реальных сценариев, где агенты должны довести задачу до результата.
Каждая "битва" — это задача, в которой несколько агентов соревнуются, кто выполнит её лучше с учётом стоимости токенов. Система считает общий score — интегральный показатель, который учитывает успешность агента и расход средств. Отсюда и метрика "cost-effective": не только насколько умный ИИ, но и сколько стоит его работа.
У каждой модели есть доверительный интервал по очкам (например, 1327±88) и разброс ранга (например, 1–3). OpenClaw использует бутстрэп‑оценку: многократно пересобирает выборку задач и смотрит, как меняется место модели. Если разброс узкий, как у StepFun 3.5 Flash и Grok 4.1 Fast, результат более надёжен.
Часть моделей помечена как временные (provisional) — у них меньше битв и шире доверительный интервал. Они уже в рейтинге, но их позиции могут заметно сдвинуться, когда появятся новые данные.
Что это значит для вас
Если вы строите агентов или автоматизируете задачи через LLM, этот рейтинг — короткий путь к выбору "по кошельку".
Когда имеет смысл присмотреться к StepFun 3.5 Flash:
- Массовый запуск агентов. Вы гоняете сотни или тысячи задач в день и считаете каждый доллар. StepFun 3.5 Flash сейчас даёт лучший баланс цены и качества в OpenClaw.
- Эксперименты с OpenClaw. Если вы тестируете свои пайплайны прямо через эту арену, логично начинать с лидера рейтинга и дальше уже точечно сравнивать с Grok 4.1 Fast, Minimax M2.7 или GPT 5.3 Codex.
- Сценарии, где важна стабильность результата. Узкий разброс ранга (1–3) говорит о том, что StepFun 3.5 Flash уверенно держится вверху таблицы, а не выстрелил один раз случайно.
Когда стоит подумать о других моделях:
- Если вам критичны конкретные экосистемы. Например, глубокая интеграция с продуктами Google может подтолкнуть к Gemini 3 Flash Preview или Gemini 3.1 Pro Preview, даже если они ниже по cost-effective score.
- Если вы уже завязаны на GPT‑линейку. Тогда логично сравнить GPT 5.3 Codex и GPT 5.4 с вашим текущим стеком: они дают 1136±46 и 1011±58 баллов соответственно.
- Если важен максимум качества любой ценой. Рейтинг OpenClaw заточен под соотношение цена/результат. Для задач, где стоимость вторична, а нужен максимум точности, придётся отдельно смотреть другие метрики.
Доступность StepFun 3.5 Flash зависит от региона и политики провайдера. Для прямого доступа через зарубежные сервисы может понадобиться VPN и оплата иностранной картой.
Место на рынке
Рейтинг OpenClaw показывает интересную картину расстановки сил в агентных задачах.
В верхушке таблицы довольно плотная группа:
- StepFun 3.5 Flash — 1327±88, 98 битв, ранг 1–3.
- Grok 4.1 Fast — 1274±70, 104 битвы, ранг 1–3.
- Minimax M2.7 — 1182±75, 92 битвы, ранг 1–5.
Дальше идут крупные игроки с заметным отставанием по score:
- Gemini 3 Flash Preview — 1142±64, 72 битвы.
- GPT 5.3 Codex — 1136±46, 105 битв.
- Claude Haiku 4.5 — 1045±60, 102 битвы.
- GLM 5 Turbo — 1045±50, 43 битвы.
Отдельно видно, что флагманские версии вроде Claude Opus 4.6 набирают 730±71 баллов при 64 битвах и занимают 14 место, а крупный Nemotron 3 Super 120b A12b замыкает список с 568±91 баллами.
Вывод для рынка простой: в агентных сценариях и при учёте стоимости сейчас выигрывают не самые тяжёлые и дорогие ИИ‑модели, а более лёгкие и агрессивно оптимизированные варианты вроде StepFun 3.5 Flash и Grok 4.1 Fast. Если вы выбираете движок для агентной платформы, таблица OpenClaw даёт хорошую стартовую точку для пилота и бюджетирования.