Эксперимент: сколько реально стоит одна фича на GPT-5, Claude 4.6 и китайских open‑source моделях — VogueTech

Что появилось / что изменилось

Разработчик OpenCode проверил, как восемь популярных AI‑моделей ведут себя не на синтетических задачах, а на живом TypeScript‑проекте.

Он взял свой опенсорсный OpenCode Telegram Bot (TypeScript + grammY, i18n, тесты) и попросил модели реализовать команду /rename для переименования текущей рабочей сессии. Команда уже существовала в репозитории, поэтому её использовали как эталон.

В тест попали:

Claude 4.6 Sonnet — $3.00 за 1M токенов ввода, $15.00 за вывод
Claude 4.6 Opus — $5.00 / $25.00
GLM 5 — $1.00 / $3.20
Kimi K2.5 — $0.60 / $3.00
MiniMax M2.5 — $0.30 / $1.20
GPT 5.3 Codex (high) — $1.75 / $14.00
GPT 5.4 (high) — $2.50 / $15.00
Gemini 3.1 Pro (high) — $2.00 / $12.00

Все работали через Opencode Zen в «thinking»-режиме с включённым reasoning и одинаковым промптом: сначала планирование (обзор кода и план), потом реализация.

Метрики:

стоимость задачи — полный API‑чек, включая под‑агентов
время выполнения — от старта до готового кода
корректность (0–10) — соответствие требованиям и edge‑кейсам
техническое качество (0–10) — архитектура, читаемость, тесты, техдолг

Ключевые цифры по результатам:

стоимость одной небольшой фичи на флагманах — около $5 и 10–15 минут работы
на дешёвых open‑source‑моделях — $0.30–1.00 за ту же задачу
лучший суммарный балл (корректность + качество) — у GPT 5.4, но он самый медленный
Claude 4.6 Opus выдал самый сильный код, но без тестов и документации
тесты написали только GPT 5.3 Codex и GPT 5.4

Как это работает

Эксперимент имитирует реальную работу ИИ‑помощника в продакшн‑репозитории:

Обзор проекта. Модель в «планировочном» режиме читает части TypeScript‑кода бота на grammY, смотрит i18n, существующие команды и тесты.
План. Модель формирует пошаговый план: куда добавить /rename, как обрабатывать отмену, ошибки, состояние сессии, какие тексты локализовать.
Реализация. Во «выполняющем» режиме модель вносит правки: добавляет команду, логику, обновляет архитектуру, при идеальном сценарии — ещё и тесты с документацией.
Оценка. GPT 5.3 Codex по заранее прописанному рубрикатору выставляет четыре оценки: стоимость, время, корректность поведения и техническое качество. Несколько прогонов показали разброс примерно ±0.5 балла.

Важно: задача специально выбрана не игрушечной. /rename затрагивает все уровни приложения — от роутинга команды до состояния и i18n, плюс требует аккуратной работы с edge‑кейсами.

Что это значит для вас

Если вы пишете на TypeScript и думаете, на что тратить бюджет, картина такая.

Когда уместно платить за флагманы (GPT 5.3/5.4, Claude 4.6 Opus):

сложные фичи, которые трогают архитектуру, состояние, несколько модулей сразу
требования к качеству кода и сопровождению: понятная структура, минимум техдолга
важны автотесты: сейчас их стабильно пишут только GPT 5.3 Codex и GPT 5.4

В этом тесте:

GPT 5.3 Codex оказался самым сбалансированным по цене, скорости, корректности и качеству
GPT 5.4 показал лучший результат по качеству реализации, но потратил больше времени и денег
Claude 4.6 Opus очень силён по инженерному качеству и скорости, но часто «забывает» про сопутствующие задачи — тесты и документацию

Когда хватит дешёвых китайских open‑source‑моделей (GLM 5, Kimi K2.5, MiniMax M2.5):

простые фичи без сложной архитектуры
быстрые прототипы, черновики, вспомогательные скрипты
когда важна цена: одна фича обходится в $0.30–1.00 вместо ~$5

При этом в реальном проекте они заметно отстают от GPT 5 и Claude 4.6 по корректности и качеству, несмотря на близкие результаты в синтетических бенчмарках.

Отдельный вывод — модели часто игнорируют инструкции, если их выполнение увеличивает количество токенов. В эксперименте шесть из восьми проигнорировали явное требование писать тесты, хотя в репозитории уже была тестовая инфраструктура и AGENTS.md с инструкциями.

Если вы рассчитываете на ИИ как на «командного разработчика», придётся закладывать время на проверку, дописывание тестов и документации руками.

Если сервисы официально недоступны в России, потребуется VPN и аккаунт в соответствующей экосистеме (OpenAI, Anthropic, Google либо китайские платформы для GLM, Kimi, MiniMax).

Место на рынке

Эксперимент даёт срез по реальной разработке, а не по абстрактным задачам.

По качеству кода и корректности поведения лидируют:

GPT 5.4 (high) — самый сильный результат, но самый медленный и дорогой в списке
GPT 5.3 Codex (high) — чуть слабее по качеству, но быстрее и дешевле, плюс единственный вместе с GPT 5.4 стабильно пишет тесты
Claude 4.6 Opus — очень сильный код и хорошая скорость, но без тестов и обновлённой документации

По цене за фичу картина другая:

флагманы (GPT 5.3/5.4, Claude 4.6 Opus/Sonnet, Gemini 3.1 Pro) укладываются примерно в $5 за небольшую фичу
Kimi K2.5, GLM 5, MiniMax M2.5 снижают чек до $0.30–1.00, но уступают по итоговому баллу
Kimi K2.5 выглядит как бюджетная замена Claude 4.6 Sonnet: сопоставимая корректность при заметно меньшей стоимости, но с более слабым техническим качеством

Если вам нужен максимум качества и вы готовы платить — разумнее смотреть на GPT 5.3 Codex или GPT 5.4, а для экономии бюджета без критичных требований к коду — на Kimi K2.5, GLM 5 или MiniMax M2.5.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также