Дата публикации
ai_products

Holo3.1: локальные ИИ‑агенты, которые реально управляют вашим компьютером

Что нового

Hugging Face обновила свою линейку «компьютерных» агентов и выпустила семейство Holo3.1 — модели, которые умеют управлять интерфейсом устройств: браузером, десктопом и теперь уже мобильными приложениями.

Ключевые изменения по сравнению с Holo3:

  1. Сильный апгрейд на мобильных устройствах

    • Бенчмарк AndroidWorld:
      • Holo3.1‑35B‑A3B поднялся с 67% до 79,3%.
      • Младшие модели 4B и 9B — с 58% до 72%.
        Это именно про автоматизацию Android‑приложений, а не только браузера.
  2. Поддержка нескольких «обвязок» агентов

    • Помимо структурированного JSON‑вывода из Holo3, Holo3.1 теперь понимает протоколы function calling.
    • На наборах OSWorld и внутренних сценариях (e‑commerce, бизнес‑ПО, коллаборация) function calling и «нативное» исполнение показывают почти одинаковые результаты.
    • Внутри собственного продукта Holotab Holo3.1 даёт более чем 25% прироста качества по сравнению с Holo3.
  3. Новые размеры моделей под разные бюджеты и устройства
    Линейка теперь включает:

    • Holo3.1‑0.8B — ультралёгкие локальные агенты.
    • Holo3.1‑4B — бюджетный вариант для развёртывания.
    • Holo3.1‑9B — баланс между скоростью и качеством.
    • Holo3.1‑35B‑A3B — максимальное качество.

    Производительность считают так: сначала усредняют четыре корпоративных бенчмарка H Corporate внутри каждой линейки, потом берут среднее по OSWorld, AndroidWorld, H Corporate, ScreenSpot‑Pro и OSWorld‑G. Конкретные цифры в материале не приводятся, но Holo3.1 позиционируют как улучшение относительно Holo3 и Qwen 3.5 при сопоставимых ресурсах.

  4. Квантованные чекпоинты для локального запуска
    Впервые Hugging Face выпускает Holo с квантованными весами:

    • FP8
    • Q4 GGUF
    • NVFP4 (W4A16 через NVIDIA Model Optimizer)

    По качеству:

    • FP8 и NVFP4 показывают те же результаты на OSWorld, что и друг друга, и всего на ~2 пункта ниже, чем полноточный BF16.

    По скорости на DGX Spark:

    • NVFP4 W4A16 выдаёт 1,41× суммарную токенную пропускную способность относительно FP8.
    • И 1,74× относительно BF16.
  5. Ставка на локальные агенты на потребительском железе

    • Появились Q4 GGUF‑чекпоинты под локальный запуск на Windows и macOS.
    • Агент работает локально на ноутбуке или десктопе, а модель может крутиться:
      • на том же устройстве (есть референсные числа для Apple Silicon — без конкретных значений), или
      • на DGX Spark в той же сети.
    • Во всех вариантах данные не выходят за пределы сети пользователя.

    На DGX Spark оптимизации в агентном слое + NVFP4 дают примерно 2× ускорение end‑to‑end по сравнению с FP8:

    • среднее время шага падает с 6,8 с до 3,3 с.

    По частоте запросов:

    • На DGX Spark связка vLLM + NVFP4 даёт самую высокую частоту запросов в режимах Default и Fast.
    • Далее идут Q4 GGUF и FP8.
      Эти улучшения обещают перенести в будущий десктопный «harness» — то есть оболочку агента.
  6. Где это всё можно взять
    Hugging Face открыла доступ к:

    • всем четырём размерам Holo3.1;
    • оптимизированным чекпоинтам FP8, NVFP4, Q4 GGUF для локальных и edge‑сценариев;
    • API Holo Models и коллекции моделей на Hugging Face.

Как это работает

Holo3.1 строится на базе семейства Qwen. Это важно: разработчики не изобретают свою архитектуру с нуля, а берут уже обкатанную трансформерную основу и доучивают её на задачах «компьютерного пользования».

Под капотом несколько ключевых идей:

  1. Ориентир на реальные среды, а не только браузер
    Holo3 в основном закрывал браузер и десктоп. В Holo3.1 обучающие данные и бенчмарки расширили на:

    • web (OSWorld и OSWorld‑G),
    • десктопные приложения,
    • мобильные интерфейсы (AndroidWorld).

    Это решает типичную проблему: агент, который отлично кликает в браузере, может «потеряться» в мобильном UI с другими паттернами и задержками.

  2. Поддержка разных «обвязок» агентов
    В Holo3 агент общался с внешним миром в основном через структурированный JSON. Holo3.1 добавляет нативную поддержку протоколов function calling.

    Это значит, что разработчик может:

    • Подключить Holo3.1 к существующему агентному фреймворку, который уже умеет работать с function calling.
    • Получать от модели не просто текст, а чёткие вызовы функций: «открой вкладку», «нажми кнопку», «заполни форму» с параметрами.

    Hugging Face показывает, что на OSWorld и корпоративных сценариях function calling и «нативное исполнение» дают почти одинаковые результаты, то есть потерь от такого протокола нет.

  3. Квантование под разные железки
    Для 35B‑A3B Hugging Face подготовила три варианта весов:

    • BF16 — базовый полноточный чекпоинт (максимальное качество, минимальные оптимизации).
    • FP8 — уменьшенная точность, меньше память, выше скорость.
    • NVFP4 (W4A16) — квантование через NVIDIA Model Optimizer: веса в 4 бита, активации в 16.
    • Q4 GGUF — формат под локальный запуск, в том числе через популярные рантаймы для LLM на ноутбуках.

    На бенчмарке OSWorld FP8 и NVFP4 дают те же баллы, а отставание от BF16 — всего около 2 пунктов. При этом NVFP4 на DGX Spark выдаёт 1,74× токенную пропускную способность по сравнению с BF16.
    Для локального сценария на потребительском железе делают ставку на Q4 GGUF, который влезает в память ноутбука и даёт приемлемую задержку.

  4. Оптимизации в агентном слое
    Ускорение — это не только про квантование. Hugging Face вместе с NVIDIA оптимизировала сам «harness» агента на Spark:

    • уменьшили накладные расходы между шагами агента,
    • лучше распараллелили запросы через vLLM,
    • подогнали протоколы под высокую частоту запросов.

    В результате среднее время шага для агента падает с 6,8 с до 3,3 с, что критично для сценариев, где агент делает десятки шагов подряд: например, заполняет сложную CRM или настраивает отчёт в бизнес‑ПО.

Что это значит для вас

Кому это вообще нужно

Holo3.1 — это не «ещё один чат‑бот». Это набор моделей, которые умеют сами кликать, печатать, переключать окна и работать с UI. Если упростить, это движок для RPA‑сценариев и «компьютерных ассистентов», но с LLM под капотом.

Где это пригодится:

  • Автоматизация рутины в браузере: загрузка отчётов, заполнение форм, работа с личным кабинетом сервиса, e‑commerce‑процессы.
  • Бизнес‑ПО и внутренние инструменты: CRM, ERP, таск‑трекинг, корпоративные порталы.
  • Коллаборационные сервисы: рассылка писем, создание задач, планирование встреч.
  • Мобильные сценарии на Android: тестирование приложений, автозаполнение форм, навигация по приложению без ручного клика.

Если вы:

  • разработчик: Holo3.1 — это способ встроить «руки» в ваш ИИ‑продукт. Модель не только отвечает, но и реально что‑то делает в интерфейсе.
  • тимлид / CTO: можно собрать агента, который автоматизирует часть работы саппорта, аналитиков, контент‑менеджеров, не переписывая все внутренние системы. Агент работает поверх уже существующего UI.
  • энтузиаст локального ИИ: Holo3.1 в Q4 GGUF и младших размерах можно крутить на собственном ноутбуке и экспериментировать с личным «десктоп‑ботом».

Где Holo3.1 особенно уместен

  1. Когда важна приватность
    Holo3.1 можно запускать полностью локально:

    • агент и модель на одном Mac/Windows‑устройстве,
    • или агент на ноутбуке, модель на сервере в той же сети.

    Данные не уходят во внешний облачный сервис. Это плюс для:

    • финансовых компаний,
    • медтеха,
    • любых сценариев с персональными данными.
  2. Когда нужен контроль над инфраструктурой
    Модели доступны в виде чекпоинтов и через API Hugging Face. Можно:

    • крутить их в собственном кластере с DGX Spark,
    • запускать на edge‑устройствах,
    • интегрировать в существующий агентный фреймворк через function calling.
  3. Когда важна цена инференса
    За счёт новых размеров (0.8B, 4B, 9B) и квантования под FP8 / NVFP4 / Q4 GGUF можно подобрать конфигурацию под бюджет:

    • 0.8B и 4B — для простых задач и массовых сценариев с большим количеством запросов.
    • 9B — если нужна золотая середина между качеством и задержкой.
    • 35B‑A3B — когда приоритет — качество, а не счёт за GPU.
  4. Если вы уже используете агентные фреймворки
    Поддержка function calling упрощает жизнь: не нужно писать сложные парсеры вывода. Holo3.1 может работать как «мозг», который отдаёт вызовы функций, а ваш фреймворк исполняет их в браузере или приложении.

Когда Holo3.1 может не подойти

  • Если вам нужен просто чат‑бот без доступа к UI, Holo3.1 избыточен. Проще взять текстовую LLM вроде Qwen, GPT‑4o или другой диалоговой модели.
  • Если у вас нет GPU и вы не готовы мириться с задержками, даже Q4 GGUF‑варианты могут оказаться медленными на старом ноутбуке.
  • Если вы целитесь в iOS‑автоматизацию, в исходном анонсе фигурирует только AndroidWorld, так что фокус именно на Android и десктопе.

По доступности: Hugging Face как платформа официально работает по всему миру, но в России к ней часто обращаются через VPN. Если у вас ограничен доступ к Hugging Face Hub или их API, придётся либо использовать зеркала, либо поднимать собственную инфраструктуру с уже скачанными моделями.

Место на рынке

Holo3.1 — это не прямой конкурент GPT‑4o или Claude 4 как диалоговых моделей. Это скорее конкурент в нише агентов, которые управляют компьютером.

С кем его имеет смысл сравнивать:

  • С другими решениями для GUI‑автоматизации и «computer use».
  • С классическими RPA‑платформами, которые автоматизируют интерфейс, но не используют LLM.

По фактам из анонса:

  • На AndroidWorld Holo3.1‑35B‑A3B показывает 79,3%, а младшие 4B/9B — 72%. Это серьёзный шаг вперёд относительно Holo3 (67% и 58% соответственно).
  • На OSWorld и корпоративных задачах Holo3.1 догоняет Holo3 по качеству и добавляет поддержку function calling при сопоставимых результатах.
  • Внутри Holotab Holo3.1 даёт более 25% прироста по сравнению с Holo3.

Сравнить напрямую с GPT‑4o, Claude 4 или другими проприетарными моделями нельзя: в анонсе нет общих бенчмарков по computer‑use для всех этих систем. Но по структуре продукта видно, на что делает ставку Hugging Face:

  • Открытые чекпоинты и локальный запуск: FP8, NVFP4, Q4 GGUF, маленькие размеры.
  • Глубокая интеграция с инфраструктурой NVIDIA (DGX Spark, Model Optimizer, vLLM).
  • Фокус на реальных UI‑сценариях: web, десктоп, Android, корпоративные приложения.

Если обобщить, Holo3.1 — это про то, чтобы дать разработчикам конструктор для своих компьютерных агентов, а не ещё один «чёрный ящик в облаке».

Как запустить и где смотреть дальше

Hugging Face предлагает несколько точек входа:

  • Holo Models API — если не хотите возиться с инфраструктурой, можно дергать модели через API.
  • Коллекция Holo3.1 на Hugging Face Hub — для тех, кто разворачивает модели у себя. Там лежат чекпоинты в форматах BF16, FP8, NVFP4 и Q4 GGUF.
  • Технический блог — источник с графиками по OSWorld, AndroidWorld, H Corporate, ScreenSpot‑Pro и OSWorld‑G, а также с подробностями по конфигурации DGX Spark и vLLM.

Конкретные команды и код в анонсе не приводятся, но типичный сценарий будет выглядеть так:

  1. Скачать нужный чекпоинт Holo3.1 с Hugging Face Hub.
  2. Поднять рантайм (vLLM, Text Generation Inference или другое совместимое решение).
  3. Подключить агентный фреймворк, который умеет:
    • читать скриншоты и состояние UI,
    • отправлять их в Holo3.1,
    • исполнять команды модели (клики, ввод текста, навигация).
  4. Настроить протокол обмена: JSON или function calling.

Если вы строите свой «десктоп‑ассистент», Holo3.1 закрывает самую сложную часть — понимание интерфейса и принятие решений, оставляя вам интеграцию с конкретными приложениями и безопасность.


Читайте также