ActionEngine: ИИ-агент, который кликает по интерфейсу без десятков LLM-запросов — VogueTech

Что появилось / что изменилось

Исследователи представили ActionEngine — фреймворк для работы ИИ-агентов с графическими интерфейсами без обучения своей модели. Он решает две главные проблемы классических GUI-агентов: дорогие и медленные пошаговые запросы к LLM и отсутствие памяти о том, что агент уже видел на экране.

Вместо сотен микрошагов с постоянными скриншотами и размышлениями ActionEngine строит память интерфейса в виде конечного автомата (state machine), а затем генерирует полноценную программу на Python для выполнения задачи.

На бенчмарке WebArena, на задачах из Reddit, ActionEngine показывает такие результаты:

95% успешных задач против 66% у самого сильного vision-only базового агента.
В среднем один вызов LLM на задачу.
Снижение стоимости работы агента в 11,8 раза.
Сокращение end-to-end задержки в 2 раза.

Главное изменение — переход от реактивного кликанья «по месту» к программному планированию действий по уже изученной карте интерфейса.

Как это работает

Внутри ActionEngine два агента, которые делят работу.

1. Crawling Agent

Этот агент офлайн «ползает» по интерфейсу:

делает скриншоты страниц;
исследует возможные действия (клики, ввод текста, переходы);
строит и обновляет память в виде state machine.

State machine — это граф состояний интерфейса: узлы соответствуют экранам или состояниям страницы, а рёбра — действиям пользователя. По сути, это карта того, куда можно попасть из каждой точки интерфейса и какими действиями.

2. Execution Agent

Когда пользователь ставит задачу онлайн, в дело вступает второй агент:

использует уже собранную память интерфейса;
планирует путь по state machine для выполнения задачи;
синтезирует полный исполняемый Python-скрипт, который кликает, вводит текст и переходит между страницами.

Если интерфейс изменился и план ломается, включается механизм восстановления:

система фиксирует ошибку выполнения конкретного шага;
делает новый скриншот и через vision-модель уточняет, где теперь нужный элемент;
чинит неудачное действие и обновляет память state machine.

В результате LLM нужен в основном для планирования и редких «ремонтов», а не для каждого клика.

Что это значит для вас

ActionEngine интересен всем, кто автоматизирует веб-интерфейсы и десктопные GUI с помощью ИИ:

Разработчикам и MLOps-командам. Подходит для построения более дешёвых и быстрых UI-агентов. Например, для навигации по сложным админкам, CRM или Reddit-подобным платформам.
Продуктовым командам. Можно проектировать ассистентов, которые выполняют сценарии целиком: «найди пост, отфильтруй, ответь по шаблону», а не просто нажимают одну кнопку за раз.
Исследователям и авторам бенчмарков. ActionEngine показывает, что память интерфейса и программная генерация действий дают существенный прирост к точности и стоимости.

Где он особенно полезен:

повторяющиеся сценарии в одном и том же продукте или наборе сайтов;
сложные цепочки действий, где важно не сбиваться и не перепутать шаги;
задачи, где цена LLM-запросов критична.

Где он будет слабее:

разовые, сильно нестандартные сайты без повторного использования памяти;
интерфейсы, которые ломаются почти при каждом заходе (частые радикальные редизайны);
сценарии, где проще использовать классический скриптовый парсер или API, а не кликать по GUI.

ActionEngine — это пока исследовательский фреймворк с arXiv, а не готовый SaaS. Чтобы использовать подход на практике, придётся интегрировать его в свою инфраструктуру, настроить окружение для скриншотов, vision-модели и исполнения Python-скриптов. Ограничений по регионам у самой идеи нет, но конечная доступность зависит от выбранных вами LLM и хостинга.

Место на рынке

Авторы сравнивают ActionEngine с vision-only GUI-агентами, которые на каждом шаге делают скриншот и спрашивают LLM, что делать дальше. Конкретных сравнений с GPT-4o, Claude 3.5 или другими именованными моделями в работе нет, поэтому судить можно только по относительным цифрам.

По данным из статьи:

ActionEngine решает 95% задач на Reddit-сценариях WebArena.
Лучший vision-only базовый агент решает 66% тех же задач.
Стоимость работы ActionEngine ниже в 11,8 раза.
Конечная задержка выполнения задач в 2 раза меньше.

Главное отличие от большинства текущих агентов:

те работают реактивно и обращаются к LLM на каждом шаге;
ActionEngine сначала строит карту интерфейса и потом пишет цельную программу.

Если вы уже используете классические агенты поверх GPT-4o или Claude 3.5 для кликов по вебу, ActionEngine предлагает другой архитектурный подход: меньше «думать на каждом шаге», больше заранее планировать и переиспользовать знания о интерфейсе. Но прямых head-to-head бенчмарков с конкретными коммерческими агентами в статье нет, поэтому придётся тестировать в своих сценариях.