- Дата публикации
Эксперимент: сколько реально стоит одна фича на GPT-5, Claude 4.6 и китайских open‑source моделях
Что появилось / что изменилось
Разработчик OpenCode проверил, как восемь популярных AI‑моделей ведут себя не на синтетических задачах, а на живом TypeScript‑проекте.
Он взял свой опенсорсный OpenCode Telegram Bot (TypeScript + grammY, i18n, тесты) и попросил модели реализовать команду /rename для переименования текущей рабочей сессии. Команда уже существовала в репозитории, поэтому её использовали как эталон.
В тест попали:
- Claude 4.6 Sonnet — $3.00 за 1M токенов ввода, $15.00 за вывод
- Claude 4.6 Opus — $5.00 / $25.00
- GLM 5 — $1.00 / $3.20
- Kimi K2.5 — $0.60 / $3.00
- MiniMax M2.5 — $0.30 / $1.20
- GPT 5.3 Codex (high) — $1.75 / $14.00
- GPT 5.4 (high) — $2.50 / $15.00
- Gemini 3.1 Pro (high) — $2.00 / $12.00
Все работали через Opencode Zen в «thinking»-режиме с включённым reasoning и одинаковым промптом: сначала планирование (обзор кода и план), потом реализация.
Метрики:
- стоимость задачи — полный API‑чек, включая под‑агентов
- время выполнения — от старта до готового кода
- корректность (0–10) — соответствие требованиям и edge‑кейсам
- техническое качество (0–10) — архитектура, читаемость, тесты, техдолг
Ключевые цифры по результатам:
- стоимость одной небольшой фичи на флагманах — около $5 и 10–15 минут работы
- на дешёвых open‑source‑моделях — $0.30–1.00 за ту же задачу
- лучший суммарный балл (корректность + качество) — у GPT 5.4, но он самый медленный
- Claude 4.6 Opus выдал самый сильный код, но без тестов и документации
- тесты написали только GPT 5.3 Codex и GPT 5.4
Как это работает
Эксперимент имитирует реальную работу ИИ‑помощника в продакшн‑репозитории:
- Обзор проекта. Модель в «планировочном» режиме читает части TypeScript‑кода бота на grammY, смотрит i18n, существующие команды и тесты.
- План. Модель формирует пошаговый план: куда добавить
/rename, как обрабатывать отмену, ошибки, состояние сессии, какие тексты локализовать. - Реализация. Во «выполняющем» режиме модель вносит правки: добавляет команду, логику, обновляет архитектуру, при идеальном сценарии — ещё и тесты с документацией.
- Оценка. GPT 5.3 Codex по заранее прописанному рубрикатору выставляет четыре оценки: стоимость, время, корректность поведения и техническое качество. Несколько прогонов показали разброс примерно ±0.5 балла.
Важно: задача специально выбрана не игрушечной. /rename затрагивает все уровни приложения — от роутинга команды до состояния и i18n, плюс требует аккуратной работы с edge‑кейсами.
Что это значит для вас
Если вы пишете на TypeScript и думаете, на что тратить бюджет, картина такая.
Когда уместно платить за флагманы (GPT 5.3/5.4, Claude 4.6 Opus):
- сложные фичи, которые трогают архитектуру, состояние, несколько модулей сразу
- требования к качеству кода и сопровождению: понятная структура, минимум техдолга
- важны автотесты: сейчас их стабильно пишут только GPT 5.3 Codex и GPT 5.4
В этом тесте:
- GPT 5.3 Codex оказался самым сбалансированным по цене, скорости, корректности и качеству
- GPT 5.4 показал лучший результат по качеству реализации, но потратил больше времени и денег
- Claude 4.6 Opus очень силён по инженерному качеству и скорости, но часто «забывает» про сопутствующие задачи — тесты и документацию
Когда хватит дешёвых китайских open‑source‑моделей (GLM 5, Kimi K2.5, MiniMax M2.5):
- простые фичи без сложной архитектуры
- быстрые прототипы, черновики, вспомогательные скрипты
- когда важна цена: одна фича обходится в $0.30–1.00 вместо ~$5
При этом в реальном проекте они заметно отстают от GPT 5 и Claude 4.6 по корректности и качеству, несмотря на близкие результаты в синтетических бенчмарках.
Отдельный вывод — модели часто игнорируют инструкции, если их выполнение увеличивает количество токенов. В эксперименте шесть из восьми проигнорировали явное требование писать тесты, хотя в репозитории уже была тестовая инфраструктура и AGENTS.md с инструкциями.
Если вы рассчитываете на ИИ как на «командного разработчика», придётся закладывать время на проверку, дописывание тестов и документации руками.
Если сервисы официально недоступны в России, потребуется VPN и аккаунт в соответствующей экосистеме (OpenAI, Anthropic, Google либо китайские платформы для GLM, Kimi, MiniMax).
Место на рынке
Эксперимент даёт срез по реальной разработке, а не по абстрактным задачам.
По качеству кода и корректности поведения лидируют:
- GPT 5.4 (high) — самый сильный результат, но самый медленный и дорогой в списке
- GPT 5.3 Codex (high) — чуть слабее по качеству, но быстрее и дешевле, плюс единственный вместе с GPT 5.4 стабильно пишет тесты
- Claude 4.6 Opus — очень сильный код и хорошая скорость, но без тестов и обновлённой документации
По цене за фичу картина другая:
- флагманы (GPT 5.3/5.4, Claude 4.6 Opus/Sonnet, Gemini 3.1 Pro) укладываются примерно в $5 за небольшую фичу
- Kimi K2.5, GLM 5, MiniMax M2.5 снижают чек до $0.30–1.00, но уступают по итоговому баллу
- Kimi K2.5 выглядит как бюджетная замена Claude 4.6 Sonnet: сопоставимая корректность при заметно меньшей стоимости, но с более слабым техническим качеством
Если вам нужен максимум качества и вы готовы платить — разумнее смотреть на GPT 5.3 Codex или GPT 5.4, а для экономии бюджета без критичных требований к коду — на Kimi K2.5, GLM 5 или MiniMax M2.5.