Дата публикации
ai_products

Hermes: самообучающиеся локальные AI‑агенты на RTX и DGX Spark с Qwen 3.6

Что нового

Hermes Agent от Nous Research — новый открытый фреймворк для AI‑агентов, который за три месяца собрал более 140 000 звёзд на GitHub и по данным OpenRouter стал самым используемым агентом в мире.

Ключевые новшества и цифры:

  • Самообучающиеся навыки: Hermes сам пишет и допиливает свои skills, сохраняя удачные решения для будущих задач.
  • Изолированные подагенты: каждый сложный запрос агент разбивает на подзадачи и запускает короткоживущие sub‑agents с отдельным контекстом и набором инструментов.
  • Ориентир на локальный запуск: Hermes изначально спроектировали как локального агента, который работает 24/7 на ПК с NVIDIA RTX, рабочих станциях NVIDIA RTX PRO и системе NVIDIA DGX Spark.
  • Оптимизация под средние LLM: Hermes стабильно работает с локальными моделями уровня 30+ млрд параметров без постоянного ручного дебага.

Новый стек для локальных агентов строится вокруг линейки Qwen 3.6 от Alibaba:

  • Qwen 3.6 35B:
    • Требует около 20 ГБ памяти.
    • По качеству обгоняет прошлые модели на 120 млрд параметров, которым нужно 70+ ГБ памяти.
  • Qwen 3.6 27B:
    • Плотная модель с большим числом активных параметров.
    • По точности сопоставима с Qwen 3.5 397B (≈400B параметров), но при этом в 16 раз меньше по размеру.

На уровне железа:

  • NVIDIA RTX / RTX PRO ускоряют инференс Qwen 3.6 за счёт Tensor Cores, сокращая задержку и увеличивая пропускную способность.
  • NVIDIA DGX Spark выдаёт до 1 петафлопса AI‑производительности и 128 ГБ унифицированной памяти, чего хватает для круглосуточного запуска Mixture‑of‑Experts моделей на 120 млрд параметров.
  • При этом та же Qwen 3.6 35B обеспечивает сопоставимый уровень "интеллекта" в гораздо меньшем размере, что даёт запас мощности для параллельных задач.

Как это работает

Архитектура Hermes

Hermes — это не просто тонкая обёртка над LLM, а активный оркестратор:

  • Активный orchestration layer: фреймворк сам планирует шаги, управляет инструментами, хранит состояние и навыки на устройстве пользователя.
  • Provider- и model-agnostic: Hermes не привязан к одному поставщику. Можно использовать Qwen 3.6, другие open‑weight LLM и разные runtime (llama.cpp, LM Studio, Ollama).
  • Локальное хранение навыков: все новые skills и улучшения агент сохраняет локально, без отправки в облако.

Саморазвивающиеся навыки

Каждый раз, когда Hermes:

  • сталкивается со сложной задачей;
  • получает фидбек пользователя;

он:

  1. Формирует новый skill на основе успешного решения.
  2. Сохраняет его в библиотеку навыков.
  3. В будущем повторно использует и дорабатывает этот skill.

В итоге агент со временем всё лучше справляется именно с вашими типичными задачами.

Подагенты с изоляцией

Hermes запускает sub‑agents как временных "работников" под конкретные подзадачи:

  • Каждый подагент получает узкий контекст и ограниченный список инструментов.
  • После выполнения подзадачи подагент завершает работу.
  • Главное "ядро" Hermes собирает результаты, контролирует ход задачи и решает, когда вызывать новых подагентов.

Плюсы:

  • Меньше путаницы в контексте.
  • Можно использовать меньшие окна контекста, что критично для локальных моделей.
  • Проще отлаживать: ошибка изолирована в одном подагенте, а не размыта по всей сессии.

Надёжность по умолчанию

Nous Research вручную:

  • отбирает и проверяет каждый skill;
  • тестирует инструменты и плагины под нагрузкой.

Результат: Hermes стабильно работает даже с локальными моделями класса 30B+ параметров, без постоянных падений и ручного тюнинга, который часто нужен в других агентных фреймворках.

Почему важен выбор железа

И Hermes, и базовые модели (Qwen 3.6 и другие) рассчитаны на локальный запуск. Качество опыта напрямую зависит от GPU:

  • NVIDIA RTX / RTX PRO:
    • Tensor Cores ускоряют инференс LLM.
    • Реальное преимущество — скорость многошаговых задач и дообучения skills: секунды вместо минут.
  • NVIDIA DGX Spark:
    • 128 ГБ унифицированной памяти позволяют запускать Mixture‑of‑Experts 120B.
    • Для Qwen 3.6 35B этого более чем достаточно, остаётся ресурс на параллельные агенты, фоновую индексацию файлов и другие сервисы.

Связка с Qwen 3.6

Qwen 3.6 — серия open‑weight LLM от Alibaba, заточенная под локальный запуск:

  • Qwen 3.6 35B:
    • Около 20 ГБ памяти для работы.
    • При этом превосходит старые 120B модели, которые требуют 70+ ГБ.
  • Qwen 3.6 27B:
    • Плотная архитектура с большим числом активных параметров.
    • По точности сопоставима с Qwen 3.5 397B (≈400B) и при этом в 16 раз меньше.

Для Hermes это означает:

  • можно запускать агента на одной мощной RTX‑карте;
  • получить качество, которое раньше требовало датацентра.

Что это значит для вас

Для кого это вообще

Hermes на NVIDIA‑железе имеет смысл, если вы:

  • энтузиаст локального AI и не хотите отправлять данные в облако;
  • разработчик, который строит инструменты вокруг персональных агентов;
  • работаете с чувствительными данными (документы, код, внутренние отчёты) и не можете выгружать их наружу.

Если вы живёте в России:

  • GitHub, GitLab, Docker Hub и часть ресурсов по LLM могут требовать VPN из‑за ограничений и блокировок.
  • Железо NVIDIA RTX / RTX PRO и DGX Spark поставляют через партнёров. Доступность и цены зависят от локальных поставщиков и ограничений.

Где Hermes полезен

1. Персональный агент на ПК

  • Постоянно запущенный помощник, который:
    • читает и организует локальные файлы;
    • взаимодействует с приложениями;
    • интегрируется с мессенджерами.
  • Qwen 3.6 + RTX даёт приемлемую скорость даже на многошаговых задачах: сбор информации, генерация отчётов, черновики писем.

2. Помощник разработчика

  • Локальный анализ кода и репозиториев.
  • Автоматизация рутинных задач: генерация boilerplate, миграции, документация.
  • Hermes постепенно накапливает skills под ваш стек и стиль.

3. Работа с документами и знаниями

  • Обработка больших локальных архивов: PDF, презентации, таблицы.
  • Поиск и разбор информации без выгрузки в облако.
  • Автоматическое создание кратких выжимок и структурированных заметок.

4. Автономные сценарии 24/7

  • На DGX Spark можно держать Hermes включённым постоянно:
    • мониторинг данных и логов;
    • периодические отчёты;
    • поддержка нескольких агентов под разные задачи.

Где Hermes пока не лучшая идея

  • Творческие задачи мирового уровня: генерация текста и кода у локальных моделей заметно улучшилась, но в задачах вроде сложной креативной режиссуры или тонкой литературной стилизации GPT‑4o и Claude 3.5 Opus пока часто сильнее.
  • Сверхогромные контексты: Hermes умеет экономить контекст за счёт подагентов, но если вам нужны десятки тысяч токенов контекста в одном запросе, облачные модели всё ещё удобнее.
  • Отсутствие мощного GPU: без RTX‑карты или аналогов запуск Qwen 3.6 на CPU будет слишком медленным для комфортной работы.

Место на рынке

Hermes и Qwen 3.6 играют в нише локальных open‑weight агентов. В этом сегменте конкурируют сразу несколько стеков.

По моделям

  • Qwen 3.6 35B:
    • Превосходит по качеству прошлые 120B модели при 20 ГБ vs 70+ ГБ памяти.
    • Это делает её интересной альтернативой крупным open‑weight моделям, которые требуют датацентрового железа.
  • Qwen 3.6 27B:
    • Сопоставима по точности с Qwen 3.5 397B (около 400B параметров).
    • При этом в 16 раз меньше, что заметно снижает требования к железу.

По сравнению с проприетарными облачными моделями вроде GPT‑4o или Claude 3.5:

  • Qwen 3.6 выигрывает в контроле над данными и отсутствии зависимости от API.
  • Качество рассуждений и креативности зависит от конкретного бенчмарка и задачи, но в бенчмарках Qwen 3.6 уже конкурирует с моделями, которые раньше требовали в разы больше параметров.

По агентным фреймворкам

Среди открытых агентных фреймворков сейчас активно обсуждают OpenClaw и стек вокруг него (NemoClaw, OpenShell). Hermes встраивается в этот ландшафт так:

  • Hermes:
    • Акцент на надёжности и локальном запуске 24/7.
    • Саморазвивающиеся skills и изолированные sub‑agents.
    • Мощная поддержка RTX и DGX Spark.
  • NemoClaw:
    • Открытый стек от NVIDIA для оптимизации OpenClaw на устройствах NVIDIA.
    • Поддержка Windows Subsystem for Linux (WSL2).
    • Ориентирован на повышение безопасности и поддержку локальных моделей.

Hermes хорошо сочетается с экосистемой RTX AI Garage, где NVIDIA активно оптимизирует открытые модели и агентные фреймворки под своё железо.

Другие модели в экосистеме RTX AI Garage

NVIDIA параллельно продвигает и другие LLM для локального запуска:

  • Qwen 3.6 + llama.cpp:
    • На NVIDIA RTX PRO GPUs генерация токенов ускоряется до 3 раз.
    • Это критично для агентов, которые выполняют многошаговые задачи и часто обновляют свои skills.
  • Google Gemma 4 26B и 31B:
    • Доступны как NVFP4 checkpoints для ускоренной работы на NVIDIA Blackwell GPUs.
    • В связке с Multi‑Token Prediction drafters от Google дают до 3x ускорения инференса при том же качестве вывода.
  • Mistral Medium 3.5:
    • Получила поддержку llama.cpp и Ollama.
    • Можно запускать на NVIDIA RTX PRO и DGX Spark.

Для пользователя это означает: Hermes — не одиночный проект, а часть более широкой экосистемы открытых моделей, оптимизированных под RTX.

Как запустить

Hermes изначально рассчитан на локальный запуск с популярными runtime.

1. Где взять Hermes

  • Перейдите в репозиторий Hermes на GitHub — там лежит исходный код, инструкции и примеры.

2. Выбор runtime и модели

Hermes работает с разными локальными стеками:

  • llama.cpp — для лёгких и производительных сборок под CPU/GPU, в том числе Qwen 3.6.
  • LM Studio — десктопный интерфейс для локальных LLM.
  • Ollama — удобный менеджер локальных моделей с поддержкой множества open‑weight LLM.

Hermes уже поставляется с поддержкой LM Studio и Ollama "из коробки" — это самый простой путь к локальному агенту.

Рекомендуемая связка:

  • GPU: NVIDIA RTX или RTX PRO.
  • Модель: Qwen 3.6 27B или 35B.
  • Runtime: llama.cpp / LM Studio / Ollama.

3. DGX Spark и обучающие материалы

Если вы планируете серьёзную инфраструктуру под агентов:

  • NVIDIA DGX Spark — компактная машина для круглосуточной работы Hermes и других агентов.
  • Для настройки есть Hermes DGX Spark playbook с подробными шагами.
  • NVIDIA запустила серию практических сессий "Build It Yourself" по агентному AI:
    • Как строить автономных агентов с NemoClaw и OpenShell.

Заказать DGX Spark можно через партнёров NVIDIA в разделе marketplace.

Что ещё происходит вокруг RTX AI Garage

NVIDIA постепенно формирует вокруг RTX отдельную AI‑экосистему:

  • RTX AI Garage регулярно публикует новые открытые модели и агенты, оптимизированные под RTX.
  • Для общения и новостей есть:
    • NVIDIA AI PC в Facebook, Instagram, TikTok и X.
    • Рассылка RTX AI PC.
    • NVIDIA Workstation в LinkedIn и X.

Для тех, кто строит локальные AI‑решения, Hermes + Qwen 3.6 + RTX/ DGX Spark — сейчас один из самых интересных стеков: самообучающийся агент, открытые веса и полноценный локальный контроль над данными.


Читайте также