Agentica набрала 36% на ARC-AGI-3 и обошла CoT‑подходы по цене в десятки раз — VogueTech

Что появилось / что изменилось

Symbolica показала, как их SDK Agentica решает задачи бенчмарка ARC-AGI-3. Это не просто прогон модели, а полноценный агент, который играет в «игры» ARC и проходит уровни.

Ключевые цифры:

36,08% общего счёта на публичном наборе ARC-AGI-3.
113 пройденных уровней из 182 доступных.
7 выигранных игр из 25.
Стоимость прогона Agentica: $1 005 за 36,08%.
Для сравнения: Opus 4.6 Max с Chain-of-Thought даёт 0,2% за $8 900.
GPT‑5.4 High с CoT показывает около 0,3%.

То есть Agentica поднимает результат с долей процента до 36% и делает это на порядок дешевле в пересчёте на задачу.

Авторы выложили код на GitHub: репозиторий symbolica-ai/ARC-AGI-3-Agents.

Как это работает

ARC-AGI-3 — это набор абстрактных визуальных задач. Каждая «игра» состоит из уровней, где нужно по примерам понять правило трансформации картинок и применить его к тестовым случаям.

Agentica поверх базовой модели (например, Opus 4.6 с контекстом 120k) строит агентную надстройку:

разбиение задачи на действия и шаги рассуждений;
последовательное планирование и перепланирование хода решения;
многократные попытки с разными гипотезами и проверкой результата;
сохранение состояния и истории действий для одной игры.

По сути, CoT-прогон GPT‑5.4 или Opus 4.6 — это один длинный размышляющий запрос. Agentica превращает это в серию ходов: агент смотрит на поле, предлагает действие, проверяет, корректирует стратегию и так до победы или поражения.

Авторы отдельно показывают «галерею» выигранных игр с метриками:

CN04: 97,6% успеха, 118 действий.
LP85: 84,16%, 273 действия.
AR25: 83,28%, 516 действий.
FT09: 77,59%, 123 действия.

Полный список для 7 победных игр видно в их таблице, там же подробно расписаны очки по уровням.

Что это значит для вас

Если вы занимаетесь агентами, автогеном или просто строите сложные пайплайны вокруг больших моделей, Agentica — хороший ориентир, куда можно двигаться.

Где это реально полезно:

Исследователи AGI и ARC. Можно воспроизвести эксперимент и сравнивать свои агенты с результатом 36,08% при известной стоимости.
Команды, которые проектируют цепочки инструментов и многошаговые решения. Архитектура Agentica даёт примеры, как разбивать задачу на действия и считать экономику.
Разработчики SDK и фреймворков для агентов. Репозиторий полезен как конкретный кейс: как организовать цикл «план‑действие‑оценка» и хранить состояние.

Где пользоваться осторожно:

Прикладные продукты с жёстким бюджетом на запрос. Полный прогон ARC-AGI-3 стоил $1 005. Для боевых сценариев нужно резать число шагов и настраивать лимиты.
Пользовательские интерфейсы «одним кликом». Agentica решает абстрактные задачи, а не интегрирована в привычные офисные сценарии.

О доступности: для работы вам понадобится доступ к использованным моделям (например, Opus 4.6 High). Для России это часто значит VPN, зарубежный аккаунт и оплату в валюте — придётся настроить инфраструктуру вокруг SDK самостоятельно.

Место на рынке

ARC-AGI-3 сейчас используют как полигон для сравнения «обычных» моделей и агентных систем. В этом сравнении Agentica выглядит как шаг от простых CoT-промптов к более тяжёлой, но эффективной обвязке вокруг LLM.

Конкретные цифры:

Opus 4.6 Max с Chain-of-Thought: около 0,2–0,25% за $8 900.
GPT‑5.4 High с CoT: 0,3%.
Agentica с Opus 4.6 High: 36,08% за $1 005.

Разница не только в качестве, но и в цене: при переходе к Agentica счёт растёт с десятых долей процента до десятков процентов, а бюджет, наоборот, падает на порядок.

В сравнительной диаграмме авторы приводят и другие модели — Gemini 3.1 Pro (Preview), Grok 4.20 (Beta Reasoning), разные режимы Opus 4.6 — но основной контраст именно между CoT-подходами и их агентом.

Для рынка это сигнал: одного длинного Chain-of-Thought уже мало. Разработка полезных агентов всё больше превращается в инженерную задачу вокруг LLM с чётким учётом стоимости, числа действий и процента решённых задач.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также