- Дата публикации
Студент обошёл Claude Sonnet на кодинге с одной RTX 5060 Ti и открытым пайплайном ATLAS
Что появилось / что изменилось
Студент Исаак Тиггес собрал локальный пайплайн ATLAS (Adaptive Test-time Learning and Autonomous Specialization) вокруг открытой модели Qwen3-14B. Вся система работает на одной потребительской RTX 5060 Ti 16 ГБ примерно за $430–500 и не требует облака, API-ключей и сторонних серверов.
Главная цифра: на бенчмарке LiveCodeBench v5 ATLAS показывает 74,6% pass@1-v(k=3) против 71,4% у Claude 4.5 Sonnet на другом наборе задач. Базовая Qwen3-14B без обвязки даёт около 55% — пайплайн добавляет почти 20 процентных пунктов только за счёт инженерии.
Стоимость одного решения задачи — около $0,004, если считать только электричество. Для сравнения, вызов Claude 4.5 Sonnet на аналогичных задачах обходится примерно в $0,066.
На других бенчмарках картинка менее радужная:
- GPQA Diamond — 47,0% (198 задач)
- SciCode — 14,7% (341 задача, считаются подзадачи)
ATLAS оптимизировали именно под LiveCodeBench, поэтому в более общих задачах он заметно проигрывает фронтирным моделям вроде DeepSeek V3.2 Reasoning и GPT-5.
Как это работает
ATLAS — это не новая LLM, а трёхфазный пайплайн поверх замороженной квантизированной Qwen3-14B-Q4_K_M от Alibaba. Модель запускается через патченный llama-server в Kubernetes-кластере на K3s, но всё крутится локально на одной RTX 5060 Ti.
Фаза 1: генерация решений
Система разбирает условие задачи через компонент PlanSearch, вытаскивает ограничения и строит несколько планов решения. BudgetForcing контролирует, сколько «thinking»-токенов тратит модель. DivSampling заставляет её выдавать разные варианты, а не три почти идентичные функции.
На выходе — три кандидата (k=3). Одна эта фаза поднимает результат с 54,9% до 67,3% — плюс 12,4 п.п. к точности без какого-либо файнтюнинга.
Фаза 2: выбор лучшего кандидата
Компонент Geometric Lens смотрит на внутренние представления модели и пытается оценить, какой из трёх вариантов кажется ей самой «энергетически выгодной» гипотезой. Этот вариант отправляется в песочницу на исполнение.
На текущей версии это почти не работает: C(x) обучали примерно на 60 примерах, и прирост точности — 0,0 п.п. Автор обещает доучить компонент в ATLAS V3.1.
Фаза 3: самостоятельная починка кода
Если все кандидаты проваливаются по тестам, система не просит готовые ответы и не лезет в интернет. Модель сама генерирует тест-кейсы, запускает код, собирает ошибки и включает PR-CoT — multi-perspective chain-of-thought repair.
Это итеративная починка: модель смотрит на задачу с разных точек зрения, шаг за шагом переписывает фрагменты кода и снова гоняет свои тесты. На фазу починки попало 42 задачи, из них 36 удалось спасти — 85,7% успеха. Фаза 3 добавляет ещё 7,3 п.п. к итоговому результату.
Что это значит для вас
Если вы пишете код, работаете с корпоративной базой или просто не хотите отправлять исходники в облако, ATLAS даёт понятный сценарий:
- локальный ассистент по алгоритмическим задачам и LeetCode-подобным упражнениям;
- генерация и автопочинка решений с автотестами на одной десктопной видеокарте;
- эксперименты с надстройками над LLM без своего датацентра.
Где ATLAS особенно полезен:
- практикующим разработчикам, которые решают много коротких задач с чёткими входами и выходами;
- тимлидам и ML-инженерам, которые тестируют «обвязку» вокруг LLM и хотят посмотреть, сколько даёт системная инженерия поверх базовой модели;
- компаниям с чувствительными репозиториями, где даже платный доступ к GPT-5 или Claude 4.5 Sonnet не закрывает вопрос приватности.
Где ожидания стоит понизить:
- сложные исследовательские задачи, длинные контексты, расплывчатые требования — бенчмарки явно показывают просадку на GPQA Diamond и SciCode;
- сценарии, где нужен один точный ответ за один запрос (pass@1), без права на три попытки и итеративную починку;
- пользователи без дискретной видеокарты: ATLAS на ноутбуке без GPU будет просто слишком медленным.
Если вы в России, это редкий случай, когда ничего не нужно обходить: система полностью локальная, VPN не нужен, подписки нет. Придётся только купить видеокарту класса RTX 5060 Ti и разобраться с установкой.
Место на рынке
На LiveCodeBench v5 ATLAS показывает 74,6% pass@1-v(k=3) и обходится примерно в $0,004 за задачу. Это дешевле Claude 4.5 Sonnet, который даёт 71,4% за ~$0,066 с вызова API в режиме single-shot.
Но по абсолютным цифрам ATLAS уступает фронтирным решениям:
- DeepSeek V3.2 Reasoning — 86,2% на LiveCodeBench, около $0,002 за задачу, single-shot;
- GPT-5 (high) — 84,6% на том же бенчмарке, около $0,043 за задачу, single-shot.
Сравнение с Claude 4.5 Sonnet и GPT-5 некорректно в лоб:
- ATLAS тестировали на 599 задачах LiveCodeBench v5, Claude — на 315 задачах из набора Artificial Analysis;
- ATLAS использует best-of-3 и многократную починку, а конкуренты в этих цифрах работали в режиме один запрос — один ответ;
- метрика ATLAS — pass@1-v(k=3), а не классический pass@1.
На GPQA Diamond (47,0%) и SciCode (14,7%) ATLAS заметно проигрывает фронтирным моделям. Эти тесты ближе к реальным сценариям с размытыми требованиями и сложным знанием предметной области.
Если коротко: ATLAS — демонстрация того, насколько далеко можно уехать на открытой 14B-модели и аккуратной инженерной обвязке. Это не замена GPT-5 или DeepSeek V3.2 Reasoning, но сильный аргумент в пользу локальных пайплайнов, когда вы готовы инвестировать в железо и время на настройку.