Holo3.1: локальные ИИ‑агенты, которые реально управляют вашим компьютером — VogueTech

Что нового

Hugging Face обновила свою линейку «компьютерных» агентов и выпустила семейство Holo3.1 — модели, которые умеют управлять интерфейсом устройств: браузером, десктопом и теперь уже мобильными приложениями.

Ключевые изменения по сравнению с Holo3:

Сильный апгрейд на мобильных устройствах
- Бенчмарк AndroidWorld:
  - Holo3.1‑35B‑A3B поднялся с 67% до 79,3%.
  - Младшие модели 4B и 9B — с 58% до 72%.
    Это именно про автоматизацию Android‑приложений, а не только браузера.
Поддержка нескольких «обвязок» агентов
- Помимо структурированного JSON‑вывода из Holo3, Holo3.1 теперь понимает протоколы function calling.
- На наборах OSWorld и внутренних сценариях (e‑commerce, бизнес‑ПО, коллаборация) function calling и «нативное» исполнение показывают почти одинаковые результаты.
- Внутри собственного продукта Holotab Holo3.1 даёт более чем 25% прироста качества по сравнению с Holo3.
Новые размеры моделей под разные бюджеты и устройства
Линейка теперь включает:
- Holo3.1‑0.8B — ультралёгкие локальные агенты.
- Holo3.1‑4B — бюджетный вариант для развёртывания.
- Holo3.1‑9B — баланс между скоростью и качеством.
- Holo3.1‑35B‑A3B — максимальное качество.
Производительность считают так: сначала усредняют четыре корпоративных бенчмарка H Corporate внутри каждой линейки, потом берут среднее по OSWorld, AndroidWorld, H Corporate, ScreenSpot‑Pro и OSWorld‑G. Конкретные цифры в материале не приводятся, но Holo3.1 позиционируют как улучшение относительно Holo3 и Qwen 3.5 при сопоставимых ресурсах.
Квантованные чекпоинты для локального запуска
Впервые Hugging Face выпускает Holo с квантованными весами:
- FP8
- Q4 GGUF
- NVFP4 (W4A16 через NVIDIA Model Optimizer)
По качеству:
- FP8 и NVFP4 показывают те же результаты на OSWorld, что и друг друга, и всего на ~2 пункта ниже, чем полноточный BF16.
По скорости на DGX Spark:
- NVFP4 W4A16 выдаёт 1,41× суммарную токенную пропускную способность относительно FP8.
- И 1,74× относительно BF16.
Ставка на локальные агенты на потребительском железе
- Появились Q4 GGUF‑чекпоинты под локальный запуск на Windows и macOS.
- Агент работает локально на ноутбуке или десктопе, а модель может крутиться:
  - на том же устройстве (есть референсные числа для Apple Silicon — без конкретных значений), или
  - на DGX Spark в той же сети.
- Во всех вариантах данные не выходят за пределы сети пользователя.
На DGX Spark оптимизации в агентном слое + NVFP4 дают примерно 2× ускорение end‑to‑end по сравнению с FP8:
- среднее время шага падает с 6,8 с до 3,3 с.
По частоте запросов:
- На DGX Spark связка vLLM + NVFP4 даёт самую высокую частоту запросов в режимах Default и Fast.
- Далее идут Q4 GGUF и FP8.
  Эти улучшения обещают перенести в будущий десктопный «harness» — то есть оболочку агента.
Где это всё можно взять
Hugging Face открыла доступ к:
- всем четырём размерам Holo3.1;
- оптимизированным чекпоинтам FP8, NVFP4, Q4 GGUF для локальных и edge‑сценариев;
- API Holo Models и коллекции моделей на Hugging Face.

Как это работает

Holo3.1 строится на базе семейства Qwen. Это важно: разработчики не изобретают свою архитектуру с нуля, а берут уже обкатанную трансформерную основу и доучивают её на задачах «компьютерного пользования».

Под капотом несколько ключевых идей:

Ориентир на реальные среды, а не только браузер
Holo3 в основном закрывал браузер и десктоп. В Holo3.1 обучающие данные и бенчмарки расширили на:
- web (OSWorld и OSWorld‑G),
- десктопные приложения,
- мобильные интерфейсы (AndroidWorld).
Это решает типичную проблему: агент, который отлично кликает в браузере, может «потеряться» в мобильном UI с другими паттернами и задержками.
Поддержка разных «обвязок» агентов
В Holo3 агент общался с внешним миром в основном через структурированный JSON. Holo3.1 добавляет нативную поддержку протоколов function calling.

Это значит, что разработчик может:
- Подключить Holo3.1 к существующему агентному фреймворку, который уже умеет работать с function calling.
- Получать от модели не просто текст, а чёткие вызовы функций: «открой вкладку», «нажми кнопку», «заполни форму» с параметрами.
Hugging Face показывает, что на OSWorld и корпоративных сценариях function calling и «нативное исполнение» дают почти одинаковые результаты, то есть потерь от такого протокола нет.
Квантование под разные железки
Для 35B‑A3B Hugging Face подготовила три варианта весов:
- BF16 — базовый полноточный чекпоинт (максимальное качество, минимальные оптимизации).
- FP8 — уменьшенная точность, меньше память, выше скорость.
- NVFP4 (W4A16) — квантование через NVIDIA Model Optimizer: веса в 4 бита, активации в 16.
- Q4 GGUF — формат под локальный запуск, в том числе через популярные рантаймы для LLM на ноутбуках.
На бенчмарке OSWorld FP8 и NVFP4 дают те же баллы, а отставание от BF16 — всего около 2 пунктов. При этом NVFP4 на DGX Spark выдаёт 1,74× токенную пропускную способность по сравнению с BF16.
Для локального сценария на потребительском железе делают ставку на Q4 GGUF, который влезает в память ноутбука и даёт приемлемую задержку.
Оптимизации в агентном слое
Ускорение — это не только про квантование. Hugging Face вместе с NVIDIA оптимизировала сам «harness» агента на Spark:
- уменьшили накладные расходы между шагами агента,
- лучше распараллелили запросы через vLLM,
- подогнали протоколы под высокую частоту запросов.
В результате среднее время шага для агента падает с 6,8 с до 3,3 с, что критично для сценариев, где агент делает десятки шагов подряд: например, заполняет сложную CRM или настраивает отчёт в бизнес‑ПО.

Что это значит для вас

Кому это вообще нужно

Holo3.1 — это не «ещё один чат‑бот». Это набор моделей, которые умеют сами кликать, печатать, переключать окна и работать с UI. Если упростить, это движок для RPA‑сценариев и «компьютерных ассистентов», но с LLM под капотом.

Где это пригодится:

Автоматизация рутины в браузере: загрузка отчётов, заполнение форм, работа с личным кабинетом сервиса, e‑commerce‑процессы.
Бизнес‑ПО и внутренние инструменты: CRM, ERP, таск‑трекинг, корпоративные порталы.
Коллаборационные сервисы: рассылка писем, создание задач, планирование встреч.
Мобильные сценарии на Android: тестирование приложений, автозаполнение форм, навигация по приложению без ручного клика.

Если вы:

разработчик: Holo3.1 — это способ встроить «руки» в ваш ИИ‑продукт. Модель не только отвечает, но и реально что‑то делает в интерфейсе.
тимлид / CTO: можно собрать агента, который автоматизирует часть работы саппорта, аналитиков, контент‑менеджеров, не переписывая все внутренние системы. Агент работает поверх уже существующего UI.
энтузиаст локального ИИ: Holo3.1 в Q4 GGUF и младших размерах можно крутить на собственном ноутбуке и экспериментировать с личным «десктоп‑ботом».

Где Holo3.1 особенно уместен

Когда важна приватность
Holo3.1 можно запускать полностью локально:
- агент и модель на одном Mac/Windows‑устройстве,
- или агент на ноутбуке, модель на сервере в той же сети.
Данные не уходят во внешний облачный сервис. Это плюс для:
- финансовых компаний,
- медтеха,
- любых сценариев с персональными данными.
Когда нужен контроль над инфраструктурой
Модели доступны в виде чекпоинтов и через API Hugging Face. Можно:
- крутить их в собственном кластере с DGX Spark,
- запускать на edge‑устройствах,
- интегрировать в существующий агентный фреймворк через function calling.
Когда важна цена инференса
За счёт новых размеров (0.8B, 4B, 9B) и квантования под FP8 / NVFP4 / Q4 GGUF можно подобрать конфигурацию под бюджет:
- 0.8B и 4B — для простых задач и массовых сценариев с большим количеством запросов.
- 9B — если нужна золотая середина между качеством и задержкой.
- 35B‑A3B — когда приоритет — качество, а не счёт за GPU.
Если вы уже используете агентные фреймворки
Поддержка function calling упрощает жизнь: не нужно писать сложные парсеры вывода. Holo3.1 может работать как «мозг», который отдаёт вызовы функций, а ваш фреймворк исполняет их в браузере или приложении.

Когда Holo3.1 может не подойти

Если вам нужен просто чат‑бот без доступа к UI, Holo3.1 избыточен. Проще взять текстовую LLM вроде Qwen, GPT‑4o или другой диалоговой модели.
Если у вас нет GPU и вы не готовы мириться с задержками, даже Q4 GGUF‑варианты могут оказаться медленными на старом ноутбуке.
Если вы целитесь в iOS‑автоматизацию, в исходном анонсе фигурирует только AndroidWorld, так что фокус именно на Android и десктопе.

По доступности: Hugging Face как платформа официально работает по всему миру, но в России к ней часто обращаются через VPN. Если у вас ограничен доступ к Hugging Face Hub или их API, придётся либо использовать зеркала, либо поднимать собственную инфраструктуру с уже скачанными моделями.

Место на рынке

Holo3.1 — это не прямой конкурент GPT‑4o или Claude 4 как диалоговых моделей. Это скорее конкурент в нише агентов, которые управляют компьютером.

С кем его имеет смысл сравнивать:

С другими решениями для GUI‑автоматизации и «computer use».
С классическими RPA‑платформами, которые автоматизируют интерфейс, но не используют LLM.

По фактам из анонса:

На AndroidWorld Holo3.1‑35B‑A3B показывает 79,3%, а младшие 4B/9B — 72%. Это серьёзный шаг вперёд относительно Holo3 (67% и 58% соответственно).
На OSWorld и корпоративных задачах Holo3.1 догоняет Holo3 по качеству и добавляет поддержку function calling при сопоставимых результатах.
Внутри Holotab Holo3.1 даёт более 25% прироста по сравнению с Holo3.

Сравнить напрямую с GPT‑4o, Claude 4 или другими проприетарными моделями нельзя: в анонсе нет общих бенчмарков по computer‑use для всех этих систем. Но по структуре продукта видно, на что делает ставку Hugging Face:

Открытые чекпоинты и локальный запуск: FP8, NVFP4, Q4 GGUF, маленькие размеры.
Глубокая интеграция с инфраструктурой NVIDIA (DGX Spark, Model Optimizer, vLLM).
Фокус на реальных UI‑сценариях: web, десктоп, Android, корпоративные приложения.

Если обобщить, Holo3.1 — это про то, чтобы дать разработчикам конструктор для своих компьютерных агентов, а не ещё один «чёрный ящик в облаке».

Как запустить и где смотреть дальше

Hugging Face предлагает несколько точек входа:

Holo Models API — если не хотите возиться с инфраструктурой, можно дергать модели через API.
Коллекция Holo3.1 на Hugging Face Hub — для тех, кто разворачивает модели у себя. Там лежат чекпоинты в форматах BF16, FP8, NVFP4 и Q4 GGUF.
Технический блог — источник с графиками по OSWorld, AndroidWorld, H Corporate, ScreenSpot‑Pro и OSWorld‑G, а также с подробностями по конфигурации DGX Spark и vLLM.

Конкретные команды и код в анонсе не приводятся, но типичный сценарий будет выглядеть так:

Скачать нужный чекпоинт Holo3.1 с Hugging Face Hub.
Поднять рантайм (vLLM, Text Generation Inference или другое совместимое решение).
Подключить агентный фреймворк, который умеет:
- читать скриншоты и состояние UI,
- отправлять их в Holo3.1,
- исполнять команды модели (клики, ввод текста, навигация).
Настроить протокол обмена: JSON или function calling.

Если вы строите свой «десктоп‑ассистент», Holo3.1 закрывает самую сложную часть — понимание интерфейса и принятие решений, оставляя вам интеграцию с конкретными приложениями и безопасность.