- Дата публикации
ActionEngine: ИИ-агент, который кликает по интерфейсу без десятков LLM-запросов
Что появилось / что изменилось
Исследователи представили ActionEngine — фреймворк для работы ИИ-агентов с графическими интерфейсами без обучения своей модели. Он решает две главные проблемы классических GUI-агентов: дорогие и медленные пошаговые запросы к LLM и отсутствие памяти о том, что агент уже видел на экране.
Вместо сотен микрошагов с постоянными скриншотами и размышлениями ActionEngine строит память интерфейса в виде конечного автомата (state machine), а затем генерирует полноценную программу на Python для выполнения задачи.
На бенчмарке WebArena, на задачах из Reddit, ActionEngine показывает такие результаты:
- 95% успешных задач против 66% у самого сильного vision-only базового агента.
- В среднем один вызов LLM на задачу.
- Снижение стоимости работы агента в 11,8 раза.
- Сокращение end-to-end задержки в 2 раза.
Главное изменение — переход от реактивного кликанья «по месту» к программному планированию действий по уже изученной карте интерфейса.
Как это работает
Внутри ActionEngine два агента, которые делят работу.
1. Crawling Agent
Этот агент офлайн «ползает» по интерфейсу:
- делает скриншоты страниц;
- исследует возможные действия (клики, ввод текста, переходы);
- строит и обновляет память в виде state machine.
State machine — это граф состояний интерфейса: узлы соответствуют экранам или состояниям страницы, а рёбра — действиям пользователя. По сути, это карта того, куда можно попасть из каждой точки интерфейса и какими действиями.
2. Execution Agent
Когда пользователь ставит задачу онлайн, в дело вступает второй агент:
- использует уже собранную память интерфейса;
- планирует путь по state machine для выполнения задачи;
- синтезирует полный исполняемый Python-скрипт, который кликает, вводит текст и переходит между страницами.
Если интерфейс изменился и план ломается, включается механизм восстановления:
- система фиксирует ошибку выполнения конкретного шага;
- делает новый скриншот и через vision-модель уточняет, где теперь нужный элемент;
- чинит неудачное действие и обновляет память state machine.
В результате LLM нужен в основном для планирования и редких «ремонтов», а не для каждого клика.
Что это значит для вас
ActionEngine интересен всем, кто автоматизирует веб-интерфейсы и десктопные GUI с помощью ИИ:
- Разработчикам и MLOps-командам. Подходит для построения более дешёвых и быстрых UI-агентов. Например, для навигации по сложным админкам, CRM или Reddit-подобным платформам.
- Продуктовым командам. Можно проектировать ассистентов, которые выполняют сценарии целиком: «найди пост, отфильтруй, ответь по шаблону», а не просто нажимают одну кнопку за раз.
- Исследователям и авторам бенчмарков. ActionEngine показывает, что память интерфейса и программная генерация действий дают существенный прирост к точности и стоимости.
Где он особенно полезен:
- повторяющиеся сценарии в одном и том же продукте или наборе сайтов;
- сложные цепочки действий, где важно не сбиваться и не перепутать шаги;
- задачи, где цена LLM-запросов критична.
Где он будет слабее:
- разовые, сильно нестандартные сайты без повторного использования памяти;
- интерфейсы, которые ломаются почти при каждом заходе (частые радикальные редизайны);
- сценарии, где проще использовать классический скриптовый парсер или API, а не кликать по GUI.
ActionEngine — это пока исследовательский фреймворк с arXiv, а не готовый SaaS. Чтобы использовать подход на практике, придётся интегрировать его в свою инфраструктуру, настроить окружение для скриншотов, vision-модели и исполнения Python-скриптов. Ограничений по регионам у самой идеи нет, но конечная доступность зависит от выбранных вами LLM и хостинга.
Место на рынке
Авторы сравнивают ActionEngine с vision-only GUI-агентами, которые на каждом шаге делают скриншот и спрашивают LLM, что делать дальше. Конкретных сравнений с GPT-4o, Claude 3.5 или другими именованными моделями в работе нет, поэтому судить можно только по относительным цифрам.
По данным из статьи:
- ActionEngine решает 95% задач на Reddit-сценариях WebArena.
- Лучший vision-only базовый агент решает 66% тех же задач.
- Стоимость работы ActionEngine ниже в 11,8 раза.
- Конечная задержка выполнения задач в 2 раза меньше.
Главное отличие от большинства текущих агентов:
- те работают реактивно и обращаются к LLM на каждом шаге;
- ActionEngine сначала строит карту интерфейса и потом пишет цельную программу.
Если вы уже используете классические агенты поверх GPT-4o или Claude 3.5 для кликов по вебу, ActionEngine предлагает другой архитектурный подход: меньше «думать на каждом шаге», больше заранее планировать и переиспользовать знания о интерфейсе. Но прямых head-to-head бенчмарков с конкретными коммерческими агентами в статье нет, поэтому придётся тестировать в своих сценариях.