Студент обошёл Claude Sonnet на кодинге с одной RTX 5060 Ti и открытым пайплайном ATLAS — VogueTech

Что появилось / что изменилось

Студент Исаак Тиггес собрал локальный пайплайн ATLAS (Adaptive Test-time Learning and Autonomous Specialization) вокруг открытой модели Qwen3-14B. Вся система работает на одной потребительской RTX 5060 Ti 16 ГБ примерно за $430–500 и не требует облака, API-ключей и сторонних серверов.

Главная цифра: на бенчмарке LiveCodeBench v5 ATLAS показывает 74,6% pass@1-v(k=3) против 71,4% у Claude 4.5 Sonnet на другом наборе задач. Базовая Qwen3-14B без обвязки даёт около 55% — пайплайн добавляет почти 20 процентных пунктов только за счёт инженерии.

Стоимость одного решения задачи — около $0,004, если считать только электричество. Для сравнения, вызов Claude 4.5 Sonnet на аналогичных задачах обходится примерно в $0,066.

На других бенчмарках картинка менее радужная:

GPQA Diamond — 47,0% (198 задач)
SciCode — 14,7% (341 задача, считаются подзадачи)

ATLAS оптимизировали именно под LiveCodeBench, поэтому в более общих задачах он заметно проигрывает фронтирным моделям вроде DeepSeek V3.2 Reasoning и GPT-5.

Как это работает

ATLAS — это не новая LLM, а трёхфазный пайплайн поверх замороженной квантизированной Qwen3-14B-Q4_K_M от Alibaba. Модель запускается через патченный llama-server в Kubernetes-кластере на K3s, но всё крутится локально на одной RTX 5060 Ti.

Фаза 1: генерация решений

Система разбирает условие задачи через компонент PlanSearch, вытаскивает ограничения и строит несколько планов решения. BudgetForcing контролирует, сколько «thinking»-токенов тратит модель. DivSampling заставляет её выдавать разные варианты, а не три почти идентичные функции.

На выходе — три кандидата (k=3). Одна эта фаза поднимает результат с 54,9% до 67,3% — плюс 12,4 п.п. к точности без какого-либо файнтюнинга.

Фаза 2: выбор лучшего кандидата

Компонент Geometric Lens смотрит на внутренние представления модели и пытается оценить, какой из трёх вариантов кажется ей самой «энергетически выгодной» гипотезой. Этот вариант отправляется в песочницу на исполнение.

На текущей версии это почти не работает: C(x) обучали примерно на 60 примерах, и прирост точности — 0,0 п.п. Автор обещает доучить компонент в ATLAS V3.1.

Фаза 3: самостоятельная починка кода

Если все кандидаты проваливаются по тестам, система не просит готовые ответы и не лезет в интернет. Модель сама генерирует тест-кейсы, запускает код, собирает ошибки и включает PR-CoT — multi-perspective chain-of-thought repair.

Это итеративная починка: модель смотрит на задачу с разных точек зрения, шаг за шагом переписывает фрагменты кода и снова гоняет свои тесты. На фазу починки попало 42 задачи, из них 36 удалось спасти — 85,7% успеха. Фаза 3 добавляет ещё 7,3 п.п. к итоговому результату.

Что это значит для вас

Если вы пишете код, работаете с корпоративной базой или просто не хотите отправлять исходники в облако, ATLAS даёт понятный сценарий:

локальный ассистент по алгоритмическим задачам и LeetCode-подобным упражнениям;
генерация и автопочинка решений с автотестами на одной десктопной видеокарте;
эксперименты с надстройками над LLM без своего датацентра.

Где ATLAS особенно полезен:

практикующим разработчикам, которые решают много коротких задач с чёткими входами и выходами;
тимлидам и ML-инженерам, которые тестируют «обвязку» вокруг LLM и хотят посмотреть, сколько даёт системная инженерия поверх базовой модели;
компаниям с чувствительными репозиториями, где даже платный доступ к GPT-5 или Claude 4.5 Sonnet не закрывает вопрос приватности.

Где ожидания стоит понизить:

сложные исследовательские задачи, длинные контексты, расплывчатые требования — бенчмарки явно показывают просадку на GPQA Diamond и SciCode;
сценарии, где нужен один точный ответ за один запрос (pass@1), без права на три попытки и итеративную починку;
пользователи без дискретной видеокарты: ATLAS на ноутбуке без GPU будет просто слишком медленным.

Если вы в России, это редкий случай, когда ничего не нужно обходить: система полностью локальная, VPN не нужен, подписки нет. Придётся только купить видеокарту класса RTX 5060 Ti и разобраться с установкой.

Место на рынке

На LiveCodeBench v5 ATLAS показывает 74,6% pass@1-v(k=3) и обходится примерно в $0,004 за задачу. Это дешевле Claude 4.5 Sonnet, который даёт 71,4% за ~$0,066 с вызова API в режиме single-shot.

Но по абсолютным цифрам ATLAS уступает фронтирным решениям:

DeepSeek V3.2 Reasoning — 86,2% на LiveCodeBench, около $0,002 за задачу, single-shot;
GPT-5 (high) — 84,6% на том же бенчмарке, около $0,043 за задачу, single-shot.

Сравнение с Claude 4.5 Sonnet и GPT-5 некорректно в лоб:

ATLAS тестировали на 599 задачах LiveCodeBench v5, Claude — на 315 задачах из набора Artificial Analysis;
ATLAS использует best-of-3 и многократную починку, а конкуренты в этих цифрах работали в режиме один запрос — один ответ;
метрика ATLAS — pass@1-v(k=3), а не классический pass@1.

На GPQA Diamond (47,0%) и SciCode (14,7%) ATLAS заметно проигрывает фронтирным моделям. Эти тесты ближе к реальным сценариям с размытыми требованиями и сложным знанием предметной области.

Если коротко: ATLAS — демонстрация того, насколько далеко можно уехать на открытой 14B-модели и аккуратной инженерной обвязке. Это не замена GPT-5 или DeepSeek V3.2 Reasoning, но сильный аргумент в пользу локальных пайплайнов, когда вы готовы инвестировать в железо и время на настройку.