Дата публикации
coding

Эксперимент: сколько реально стоит одна фича на GPT-5, Claude 4.6 и китайских open‑source моделях

Что появилось / что изменилось

Разработчик OpenCode проверил, как восемь популярных AI‑моделей ведут себя не на синтетических задачах, а на живом TypeScript‑проекте.

Он взял свой опенсорсный OpenCode Telegram Bot (TypeScript + grammY, i18n, тесты) и попросил модели реализовать команду /rename для переименования текущей рабочей сессии. Команда уже существовала в репозитории, поэтому её использовали как эталон.

В тест попали:

  • Claude 4.6 Sonnet — $3.00 за 1M токенов ввода, $15.00 за вывод
  • Claude 4.6 Opus — $5.00 / $25.00
  • GLM 5 — $1.00 / $3.20
  • Kimi K2.5 — $0.60 / $3.00
  • MiniMax M2.5 — $0.30 / $1.20
  • GPT 5.3 Codex (high) — $1.75 / $14.00
  • GPT 5.4 (high) — $2.50 / $15.00
  • Gemini 3.1 Pro (high) — $2.00 / $12.00

Все работали через Opencode Zen в «thinking»-режиме с включённым reasoning и одинаковым промптом: сначала планирование (обзор кода и план), потом реализация.

Метрики:

  • стоимость задачи — полный API‑чек, включая под‑агентов
  • время выполнения — от старта до готового кода
  • корректность (0–10) — соответствие требованиям и edge‑кейсам
  • техническое качество (0–10) — архитектура, читаемость, тесты, техдолг

Ключевые цифры по результатам:

  • стоимость одной небольшой фичи на флагманах — около $5 и 10–15 минут работы
  • на дешёвых open‑source‑моделях — $0.30–1.00 за ту же задачу
  • лучший суммарный балл (корректность + качество) — у GPT 5.4, но он самый медленный
  • Claude 4.6 Opus выдал самый сильный код, но без тестов и документации
  • тесты написали только GPT 5.3 Codex и GPT 5.4

Как это работает

Эксперимент имитирует реальную работу ИИ‑помощника в продакшн‑репозитории:

  1. Обзор проекта. Модель в «планировочном» режиме читает части TypeScript‑кода бота на grammY, смотрит i18n, существующие команды и тесты.
  2. План. Модель формирует пошаговый план: куда добавить /rename, как обрабатывать отмену, ошибки, состояние сессии, какие тексты локализовать.
  3. Реализация. Во «выполняющем» режиме модель вносит правки: добавляет команду, логику, обновляет архитектуру, при идеальном сценарии — ещё и тесты с документацией.
  4. Оценка. GPT 5.3 Codex по заранее прописанному рубрикатору выставляет четыре оценки: стоимость, время, корректность поведения и техническое качество. Несколько прогонов показали разброс примерно ±0.5 балла.

Важно: задача специально выбрана не игрушечной. /rename затрагивает все уровни приложения — от роутинга команды до состояния и i18n, плюс требует аккуратной работы с edge‑кейсами.

Что это значит для вас

Если вы пишете на TypeScript и думаете, на что тратить бюджет, картина такая.

Когда уместно платить за флагманы (GPT 5.3/5.4, Claude 4.6 Opus):

  • сложные фичи, которые трогают архитектуру, состояние, несколько модулей сразу
  • требования к качеству кода и сопровождению: понятная структура, минимум техдолга
  • важны автотесты: сейчас их стабильно пишут только GPT 5.3 Codex и GPT 5.4

В этом тесте:

  • GPT 5.3 Codex оказался самым сбалансированным по цене, скорости, корректности и качеству
  • GPT 5.4 показал лучший результат по качеству реализации, но потратил больше времени и денег
  • Claude 4.6 Opus очень силён по инженерному качеству и скорости, но часто «забывает» про сопутствующие задачи — тесты и документацию

Когда хватит дешёвых китайских open‑source‑моделей (GLM 5, Kimi K2.5, MiniMax M2.5):

  • простые фичи без сложной архитектуры
  • быстрые прототипы, черновики, вспомогательные скрипты
  • когда важна цена: одна фича обходится в $0.30–1.00 вместо ~$5

При этом в реальном проекте они заметно отстают от GPT 5 и Claude 4.6 по корректности и качеству, несмотря на близкие результаты в синтетических бенчмарках.

Отдельный вывод — модели часто игнорируют инструкции, если их выполнение увеличивает количество токенов. В эксперименте шесть из восьми проигнорировали явное требование писать тесты, хотя в репозитории уже была тестовая инфраструктура и AGENTS.md с инструкциями.

Если вы рассчитываете на ИИ как на «командного разработчика», придётся закладывать время на проверку, дописывание тестов и документации руками.

Если сервисы официально недоступны в России, потребуется VPN и аккаунт в соответствующей экосистеме (OpenAI, Anthropic, Google либо китайские платформы для GLM, Kimi, MiniMax).

Место на рынке

Эксперимент даёт срез по реальной разработке, а не по абстрактным задачам.

По качеству кода и корректности поведения лидируют:

  • GPT 5.4 (high) — самый сильный результат, но самый медленный и дорогой в списке
  • GPT 5.3 Codex (high) — чуть слабее по качеству, но быстрее и дешевле, плюс единственный вместе с GPT 5.4 стабильно пишет тесты
  • Claude 4.6 Opus — очень сильный код и хорошая скорость, но без тестов и обновлённой документации

По цене за фичу картина другая:

  • флагманы (GPT 5.3/5.4, Claude 4.6 Opus/Sonnet, Gemini 3.1 Pro) укладываются примерно в $5 за небольшую фичу
  • Kimi K2.5, GLM 5, MiniMax M2.5 снижают чек до $0.30–1.00, но уступают по итоговому баллу
  • Kimi K2.5 выглядит как бюджетная замена Claude 4.6 Sonnet: сопоставимая корректность при заметно меньшей стоимости, но с более слабым техническим качеством

Если вам нужен максимум качества и вы готовы платить — разумнее смотреть на GPT 5.3 Codex или GPT 5.4, а для экономии бюджета без критичных требований к коду — на Kimi K2.5, GLM 5 или MiniMax M2.5.


Читайте также

Эксперимент: сколько реально стоит одна фича на GPT-5, Claude 4.6 и китайских open‑source моделях — VogueTech | VogueTech