Дата публикации
ai_products

MolmoWeb: открытый веб-агент, который сам действует в браузере

Что появилось / что изменилось

Allen Institute for AI (Ai2) выкатил линейку открытых веб-агентов MolmoWeb. Это мультимодели, которые умеют работать с текстом и изображениями и при этом действовать в онлайне — как автономный пользователь браузера.

Главный акцент — на качестве. MolmoWeb-агенты показывают результаты уровня state-of-the-art среди открытых моделей схожего масштаба. В бенчмарках они обгоняют Fara-7B, UI-Tars-1.5-7B и Holo1-7B. Отдельно Ai2 подчёркивает MolmoWeb-8B: он опережает SoM-агентов, собранных поверх гораздо более крупных закрытых моделей, включая GPT-4o.

На двух ключевых тестах для веб-агентов картина такая:

  • WebVoyager: 78,2% pass@1 и 94,7% pass@4
  • Online-Mind2Web: 35,3% pass@1 и 60,5% pass@4

pass@1 — это когда агент с первой попытки проходит задачу. pass@4 — когда даётся до четырёх параллельных попыток, а система выбирает лучший результат. Разрыв особенно заметен: в WebVoyager качество подскакивает с 78,2% до 94,7% при использовании best-of-4.

На старте доступны несколько моделей семейства, в том числе MolmoWeb-4B. Ai2 публикует не только веса, но и датасеты, тренировочный код, оценки и промежуточные чекпоинты — всё под лицензией Apache 2.0.

Как это работает

MolmoWeb-4B построен на архитектуре Molmo2. Под капотом — языковая часть на базе Qwen3-8B и визуальный бэкенд SigLIP 2. Комбинация позволяет одновременно понимать текстовые инструкции и состояние веб-страницы как изображение.

Формат работы — агент, который последовательно формирует шаги: мысль → действие. Разработчики предлагают использовать шаблон подсказки MOLMOWEB_THINK_TEMPLATE. В него входят:

  • формулировка цели (# GOAL)
  • лог прошлых шагов (# PREVIOUS STEPS)
  • информация о текущей странице (# CURRENTLY ACTIVE PAGE)
  • запрос к агенту сгенерировать следующий шаг (# NEXT STEP)

Пример из кода: задача — «Tell me about the Ai2 PIROR team's recent projects», а текущая страница — about:blank. Агент получает и текстовый prompt, и "скриншот" страницы — здесь это просто белое изображение 1280×720.

Технический стек для запуска минимален: transformers от Hugging Face, AutoModelForImageTextToText, AutoProcessor, PIL, torch и шаблоны Jinja2. Код заточен под GPU с автоподбором dtype и device_map="auto". Генерация идёт с torch.autocast("cuda", dtype=torch.bfloat16) и ограничением в 200 новых токенов.

Что это значит для вас

MolmoWeb интересен, если вы:

  • Разрабатываете AI-агентов для браузера. Модель умеет пошагово планировать и исполнять действия в онлайне. Подходит для прототипов ассистентов, которые сами кликают, заполняют формы, навигируются по интерфейсам.

  • Строите свои web-automation пайплайны. Вместо жесткого скрипта можно дать агенту цель и текущий контекст страницы. Дальше он сам предложит последовательность действий. Это полезно для сложных интерфейсов, где DOM часто меняется.

  • Исследуете мультимодальные модели. MolmoWeb сочетает текст и картинку страницы. Можно экспериментировать с задачами типа: понять, что происходит на скриншоте, и на основе этого действовать.

  • Нужен полностью открытый стек. Лицензия Apache 2.0 плюс открытые датасеты, код и чекпоинты — удобная база для академических проектов и корпоративных R&D, где важна воспроизводимость.

Где MolmoWeb не лучшая идея:

  • Простые CLI- или backend-задачи без интерфейса. Если не нужен браузер и визуальное восприятие, логичнее взять чисто текстовую LLM.

  • Проекты без доступа к GPU. Код в примере заточен под CUDA. Теоретически можно перевести на CPU, но скорость и удобство сильно просядут.

  • Продакшн без своей проверки качества. Несмотря на сильные бенчмарки, веб-агент — это всегда риск неожиданных действий в онлайне. Нужен слой валидации и sandbox.

MolmoWeb доступен напрямую через Hugging Face (allenai/MolmoWeb-4B и другие чекпоинты). Для России это обычный доступ к репозиторию и pip-зависимостям; отдельный VPN не требуется, если у вас и так открывается Hugging Face.

Место на рынке

Ai2 целится в нишу открытых веб-агентов и сравнивает MolmoWeb с двумя группами конкурентов.

  1. Открытые модели сопоставимого размера. По результатам тестов MolmoWeb-агенты обгоняют Fara-7B, UI-Tars-1.5-7B и Holo1-7B. То есть, если вы уже смотрели на эти решения как основу для браузерных агентов, теперь есть более точная альтернатива при схожем масштабе.

  2. Агенты на крупных закрытых моделях. MolmoWeb-8B опережает SoM-агентов, построенных на GPT-4o и других фронтирных закрытых системах. Это важно, если вы не хотите завязываться на платные API и юридические ограничения вокруг использования данных.

Отдельный плюс Ai2 — открытость всего стека: датасетов, кода, промежуточных чекпоинтов. Это не просто веса, а полноценный конструктор для своих web-агентов и собственных исследований. Минус — нет готового управляемого облачного сервиса: придётся поднимать инфраструктуру самостоятельно.

В итоге MolmoWeb — это вариант для тех, кто готов инвестировать в свой стек автономных браузерных агентов и кому важны контроль, воспроизводимость и отсутствие зависимости от закрытых API.


Читайте также

MolmoWeb: открытый веб-агент, который сам действует в браузере — VogueTech | VogueTech