- Дата публикации
MolmoWeb: открытый веб-агент, который сам действует в браузере
Что появилось / что изменилось
Allen Institute for AI (Ai2) выкатил линейку открытых веб-агентов MolmoWeb. Это мультимодели, которые умеют работать с текстом и изображениями и при этом действовать в онлайне — как автономный пользователь браузера.
Главный акцент — на качестве. MolmoWeb-агенты показывают результаты уровня state-of-the-art среди открытых моделей схожего масштаба. В бенчмарках они обгоняют Fara-7B, UI-Tars-1.5-7B и Holo1-7B. Отдельно Ai2 подчёркивает MolmoWeb-8B: он опережает SoM-агентов, собранных поверх гораздо более крупных закрытых моделей, включая GPT-4o.
На двух ключевых тестах для веб-агентов картина такая:
- WebVoyager: 78,2% pass@1 и 94,7% pass@4
- Online-Mind2Web: 35,3% pass@1 и 60,5% pass@4
pass@1 — это когда агент с первой попытки проходит задачу. pass@4 — когда даётся до четырёх параллельных попыток, а система выбирает лучший результат. Разрыв особенно заметен: в WebVoyager качество подскакивает с 78,2% до 94,7% при использовании best-of-4.
На старте доступны несколько моделей семейства, в том числе MolmoWeb-4B. Ai2 публикует не только веса, но и датасеты, тренировочный код, оценки и промежуточные чекпоинты — всё под лицензией Apache 2.0.
Как это работает
MolmoWeb-4B построен на архитектуре Molmo2. Под капотом — языковая часть на базе Qwen3-8B и визуальный бэкенд SigLIP 2. Комбинация позволяет одновременно понимать текстовые инструкции и состояние веб-страницы как изображение.
Формат работы — агент, который последовательно формирует шаги: мысль → действие. Разработчики предлагают использовать шаблон подсказки MOLMOWEB_THINK_TEMPLATE. В него входят:
- формулировка цели (# GOAL)
- лог прошлых шагов (# PREVIOUS STEPS)
- информация о текущей странице (# CURRENTLY ACTIVE PAGE)
- запрос к агенту сгенерировать следующий шаг (# NEXT STEP)
Пример из кода: задача — «Tell me about the Ai2 PIROR team's recent projects», а текущая страница — about:blank. Агент получает и текстовый prompt, и "скриншот" страницы — здесь это просто белое изображение 1280×720.
Технический стек для запуска минимален: transformers от Hugging Face, AutoModelForImageTextToText, AutoProcessor, PIL, torch и шаблоны Jinja2. Код заточен под GPU с автоподбором dtype и device_map="auto". Генерация идёт с torch.autocast("cuda", dtype=torch.bfloat16) и ограничением в 200 новых токенов.
Что это значит для вас
MolmoWeb интересен, если вы:
-
Разрабатываете AI-агентов для браузера. Модель умеет пошагово планировать и исполнять действия в онлайне. Подходит для прототипов ассистентов, которые сами кликают, заполняют формы, навигируются по интерфейсам.
-
Строите свои web-automation пайплайны. Вместо жесткого скрипта можно дать агенту цель и текущий контекст страницы. Дальше он сам предложит последовательность действий. Это полезно для сложных интерфейсов, где DOM часто меняется.
-
Исследуете мультимодальные модели. MolmoWeb сочетает текст и картинку страницы. Можно экспериментировать с задачами типа: понять, что происходит на скриншоте, и на основе этого действовать.
-
Нужен полностью открытый стек. Лицензия Apache 2.0 плюс открытые датасеты, код и чекпоинты — удобная база для академических проектов и корпоративных R&D, где важна воспроизводимость.
Где MolmoWeb не лучшая идея:
-
Простые CLI- или backend-задачи без интерфейса. Если не нужен браузер и визуальное восприятие, логичнее взять чисто текстовую LLM.
-
Проекты без доступа к GPU. Код в примере заточен под CUDA. Теоретически можно перевести на CPU, но скорость и удобство сильно просядут.
-
Продакшн без своей проверки качества. Несмотря на сильные бенчмарки, веб-агент — это всегда риск неожиданных действий в онлайне. Нужен слой валидации и sandbox.
MolmoWeb доступен напрямую через Hugging Face (allenai/MolmoWeb-4B и другие чекпоинты). Для России это обычный доступ к репозиторию и pip-зависимостям; отдельный VPN не требуется, если у вас и так открывается Hugging Face.
Место на рынке
Ai2 целится в нишу открытых веб-агентов и сравнивает MolmoWeb с двумя группами конкурентов.
-
Открытые модели сопоставимого размера. По результатам тестов MolmoWeb-агенты обгоняют Fara-7B, UI-Tars-1.5-7B и Holo1-7B. То есть, если вы уже смотрели на эти решения как основу для браузерных агентов, теперь есть более точная альтернатива при схожем масштабе.
-
Агенты на крупных закрытых моделях. MolmoWeb-8B опережает SoM-агентов, построенных на GPT-4o и других фронтирных закрытых системах. Это важно, если вы не хотите завязываться на платные API и юридические ограничения вокруг использования данных.
Отдельный плюс Ai2 — открытость всего стека: датасетов, кода, промежуточных чекпоинтов. Это не просто веса, а полноценный конструктор для своих web-агентов и собственных исследований. Минус — нет готового управляемого облачного сервиса: придётся поднимать инфраструктуру самостоятельно.
В итоге MolmoWeb — это вариант для тех, кто готов инвестировать в свой стек автономных браузерных агентов и кому важны контроль, воспроизводимость и отсутствие зависимости от закрытых API.