Пять графиков Cursor, которые разрушают доверие к публичным бенчмаркам для ИИ-кодинга — VogueTech

Что появилось / что изменилось

Команда Cursor опубликовала пять графиков из своего внутреннего бенчмарка CursorBench. Они показывают три ключевых изменения в подходах к оценке ИИ для кодинга. Во-первых, Cursor измеряет не только процент решённых задач, но и медианное количество токенов на решение — от 3 000 до 12 000 у разных моделей. Во-вторых, задачи в бенчмарке стали крупнее: средний размер патча (правки) от версии v1 к v3 примерно удвоился. В-третьих, изменилась структура задач: короткие описания с длинными решениями вместо длинных описаний с короткими патчами, как в SWE-bench.

Как это работает

CursorBench не статичен. Он автоматически пополняется реальными задачами пользователей Cursor через систему Cursor Blame. Она отслеживает, какой запрос к агенту привёл к конкретному коммиту в коде. Так бенчмарк эволюционирует вместе с поведением разработчиков. Внутренняя оценка моделей строится на двумерной плоскости: эффективность (процент решённых задач) против эффективности (количество потраченных токенов). Публичные бенчмарки, такие как SWE-bench Verified (500 задач) или SWE-bench Pro (1 865 задач), используют замороженные наборы данных 2024-2025 годов.

Что это значит для вас

Если вы выбираете модель для работы, не доверяйте слепо рейтингам по публичным бенчмаркам. Они могут скрывать важные недостатки. Модель с результатом 75% в SWE-bench может тратить в четыре раза больше токенов (12 000 против 3 000), чем модель с результатом 72%. Это прямая разница в скорости ответа и стоимости запроса. Для продакшена это критично. Публичные бенчмарки также отстают от реальности: они тестируют модели на старых, мелких и чётко сформулированных задачах, в то время как разработчики сегодня просят ИИ выполнять более масштабные и неопределённые работы. Ориентируйтесь на собственное тестирование моделей на ваших типовых задачах, учитывая баланс качества, скорости и стоимости.

Место на рынке

Подход Cursor ставит под сомнение методологию всех крупных публичных бенчмарков для кодинга: SWE-bench, Terminal-Bench, Aider Polyglot. Эти бенчмарки ранжируют модели только по одному параметру — проценту решённых задач. Cursor показывает, что без учёта затрачиваемых токенов такая оценка неполна. Кроме того, статичность публичных наборов данных делает их менее релевантными для оценки моделей, которые будут использоваться в реальных проектах сегодня. Внутренние бенчмарки крупных компаний, подобные CursorBench, становятся более точным, но закрытым инструментом оценки.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также