Hermes: самообучающиеся локальные AI‑агенты на RTX и DGX Spark с Qwen 3.6 — VogueTech

Что нового

Hermes Agent от Nous Research — новый открытый фреймворк для AI‑агентов, который за три месяца собрал более 140 000 звёзд на GitHub и по данным OpenRouter стал самым используемым агентом в мире.

Ключевые новшества и цифры:

Самообучающиеся навыки: Hermes сам пишет и допиливает свои skills, сохраняя удачные решения для будущих задач.
Изолированные подагенты: каждый сложный запрос агент разбивает на подзадачи и запускает короткоживущие sub‑agents с отдельным контекстом и набором инструментов.
Ориентир на локальный запуск: Hermes изначально спроектировали как локального агента, который работает 24/7 на ПК с NVIDIA RTX, рабочих станциях NVIDIA RTX PRO и системе NVIDIA DGX Spark.
Оптимизация под средние LLM: Hermes стабильно работает с локальными моделями уровня 30+ млрд параметров без постоянного ручного дебага.

Новый стек для локальных агентов строится вокруг линейки Qwen 3.6 от Alibaba:

Qwen 3.6 35B:
- Требует около 20 ГБ памяти.
- По качеству обгоняет прошлые модели на 120 млрд параметров, которым нужно 70+ ГБ памяти.
Qwen 3.6 27B:
- Плотная модель с большим числом активных параметров.
- По точности сопоставима с Qwen 3.5 397B (≈400B параметров), но при этом в 16 раз меньше по размеру.

На уровне железа:

NVIDIA RTX / RTX PRO ускоряют инференс Qwen 3.6 за счёт Tensor Cores, сокращая задержку и увеличивая пропускную способность.
NVIDIA DGX Spark выдаёт до 1 петафлопса AI‑производительности и 128 ГБ унифицированной памяти, чего хватает для круглосуточного запуска Mixture‑of‑Experts моделей на 120 млрд параметров.
При этом та же Qwen 3.6 35B обеспечивает сопоставимый уровень "интеллекта" в гораздо меньшем размере, что даёт запас мощности для параллельных задач.

Как это работает

Архитектура Hermes

Hermes — это не просто тонкая обёртка над LLM, а активный оркестратор:

Активный orchestration layer: фреймворк сам планирует шаги, управляет инструментами, хранит состояние и навыки на устройстве пользователя.
Provider- и model-agnostic: Hermes не привязан к одному поставщику. Можно использовать Qwen 3.6, другие open‑weight LLM и разные runtime (llama.cpp, LM Studio, Ollama).
Локальное хранение навыков: все новые skills и улучшения агент сохраняет локально, без отправки в облако.

Саморазвивающиеся навыки

Каждый раз, когда Hermes:

сталкивается со сложной задачей;
получает фидбек пользователя;

он:

Формирует новый skill на основе успешного решения.
Сохраняет его в библиотеку навыков.
В будущем повторно использует и дорабатывает этот skill.

В итоге агент со временем всё лучше справляется именно с вашими типичными задачами.

Подагенты с изоляцией

Hermes запускает sub‑agents как временных "работников" под конкретные подзадачи:

Каждый подагент получает узкий контекст и ограниченный список инструментов.
После выполнения подзадачи подагент завершает работу.
Главное "ядро" Hermes собирает результаты, контролирует ход задачи и решает, когда вызывать новых подагентов.

Плюсы:

Меньше путаницы в контексте.
Можно использовать меньшие окна контекста, что критично для локальных моделей.
Проще отлаживать: ошибка изолирована в одном подагенте, а не размыта по всей сессии.

Надёжность по умолчанию

Nous Research вручную:

отбирает и проверяет каждый skill;
тестирует инструменты и плагины под нагрузкой.

Результат: Hermes стабильно работает даже с локальными моделями класса 30B+ параметров, без постоянных падений и ручного тюнинга, который часто нужен в других агентных фреймворках.

Почему важен выбор железа

И Hermes, и базовые модели (Qwen 3.6 и другие) рассчитаны на локальный запуск. Качество опыта напрямую зависит от GPU:

NVIDIA RTX / RTX PRO:
- Tensor Cores ускоряют инференс LLM.
- Реальное преимущество — скорость многошаговых задач и дообучения skills: секунды вместо минут.
NVIDIA DGX Spark:
- 128 ГБ унифицированной памяти позволяют запускать Mixture‑of‑Experts 120B.
- Для Qwen 3.6 35B этого более чем достаточно, остаётся ресурс на параллельные агенты, фоновую индексацию файлов и другие сервисы.

Связка с Qwen 3.6

Qwen 3.6 — серия open‑weight LLM от Alibaba, заточенная под локальный запуск:

Qwen 3.6 35B:
- Около 20 ГБ памяти для работы.
- При этом превосходит старые 120B модели, которые требуют 70+ ГБ.
Qwen 3.6 27B:
- Плотная архитектура с большим числом активных параметров.
- По точности сопоставима с Qwen 3.5 397B (≈400B) и при этом в 16 раз меньше.

Для Hermes это означает:

можно запускать агента на одной мощной RTX‑карте;
получить качество, которое раньше требовало датацентра.

Что это значит для вас

Для кого это вообще

Hermes на NVIDIA‑железе имеет смысл, если вы:

энтузиаст локального AI и не хотите отправлять данные в облако;
разработчик, который строит инструменты вокруг персональных агентов;
работаете с чувствительными данными (документы, код, внутренние отчёты) и не можете выгружать их наружу.

Если вы живёте в России:

GitHub, GitLab, Docker Hub и часть ресурсов по LLM могут требовать VPN из‑за ограничений и блокировок.
Железо NVIDIA RTX / RTX PRO и DGX Spark поставляют через партнёров. Доступность и цены зависят от локальных поставщиков и ограничений.

Где Hermes полезен

1. Персональный агент на ПК

Постоянно запущенный помощник, который:
- читает и организует локальные файлы;
- взаимодействует с приложениями;
- интегрируется с мессенджерами.
Qwen 3.6 + RTX даёт приемлемую скорость даже на многошаговых задачах: сбор информации, генерация отчётов, черновики писем.

2. Помощник разработчика

Локальный анализ кода и репозиториев.
Автоматизация рутинных задач: генерация boilerplate, миграции, документация.
Hermes постепенно накапливает skills под ваш стек и стиль.

3. Работа с документами и знаниями

Обработка больших локальных архивов: PDF, презентации, таблицы.
Поиск и разбор информации без выгрузки в облако.
Автоматическое создание кратких выжимок и структурированных заметок.

4. Автономные сценарии 24/7

На DGX Spark можно держать Hermes включённым постоянно:
- мониторинг данных и логов;
- периодические отчёты;
- поддержка нескольких агентов под разные задачи.

Где Hermes пока не лучшая идея

Творческие задачи мирового уровня: генерация текста и кода у локальных моделей заметно улучшилась, но в задачах вроде сложной креативной режиссуры или тонкой литературной стилизации GPT‑4o и Claude 3.5 Opus пока часто сильнее.
Сверхогромные контексты: Hermes умеет экономить контекст за счёт подагентов, но если вам нужны десятки тысяч токенов контекста в одном запросе, облачные модели всё ещё удобнее.
Отсутствие мощного GPU: без RTX‑карты или аналогов запуск Qwen 3.6 на CPU будет слишком медленным для комфортной работы.

Место на рынке

Hermes и Qwen 3.6 играют в нише локальных open‑weight агентов. В этом сегменте конкурируют сразу несколько стеков.

По моделям

Qwen 3.6 35B:
- Превосходит по качеству прошлые 120B модели при 20 ГБ vs 70+ ГБ памяти.
- Это делает её интересной альтернативой крупным open‑weight моделям, которые требуют датацентрового железа.
Qwen 3.6 27B:
- Сопоставима по точности с Qwen 3.5 397B (около 400B параметров).
- При этом в 16 раз меньше, что заметно снижает требования к железу.

По сравнению с проприетарными облачными моделями вроде GPT‑4o или Claude 3.5:

Qwen 3.6 выигрывает в контроле над данными и отсутствии зависимости от API.
Качество рассуждений и креативности зависит от конкретного бенчмарка и задачи, но в бенчмарках Qwen 3.6 уже конкурирует с моделями, которые раньше требовали в разы больше параметров.

По агентным фреймворкам

Среди открытых агентных фреймворков сейчас активно обсуждают OpenClaw и стек вокруг него (NemoClaw, OpenShell). Hermes встраивается в этот ландшафт так:

Hermes:
- Акцент на надёжности и локальном запуске 24/7.
- Саморазвивающиеся skills и изолированные sub‑agents.
- Мощная поддержка RTX и DGX Spark.
NemoClaw:
- Открытый стек от NVIDIA для оптимизации OpenClaw на устройствах NVIDIA.
- Поддержка Windows Subsystem for Linux (WSL2).
- Ориентирован на повышение безопасности и поддержку локальных моделей.

Hermes хорошо сочетается с экосистемой RTX AI Garage, где NVIDIA активно оптимизирует открытые модели и агентные фреймворки под своё железо.

Другие модели в экосистеме RTX AI Garage

NVIDIA параллельно продвигает и другие LLM для локального запуска:

Qwen 3.6 + llama.cpp:
- На NVIDIA RTX PRO GPUs генерация токенов ускоряется до 3 раз.
- Это критично для агентов, которые выполняют многошаговые задачи и часто обновляют свои skills.
Google Gemma 4 26B и 31B:
- Доступны как NVFP4 checkpoints для ускоренной работы на NVIDIA Blackwell GPUs.
- В связке с Multi‑Token Prediction drafters от Google дают до 3x ускорения инференса при том же качестве вывода.
Mistral Medium 3.5:
- Получила поддержку llama.cpp и Ollama.
- Можно запускать на NVIDIA RTX PRO и DGX Spark.

Для пользователя это означает: Hermes — не одиночный проект, а часть более широкой экосистемы открытых моделей, оптимизированных под RTX.

Как запустить

Hermes изначально рассчитан на локальный запуск с популярными runtime.

1. Где взять Hermes

Перейдите в репозиторий Hermes на GitHub — там лежит исходный код, инструкции и примеры.

2. Выбор runtime и модели

Hermes работает с разными локальными стеками:

llama.cpp — для лёгких и производительных сборок под CPU/GPU, в том числе Qwen 3.6.
LM Studio — десктопный интерфейс для локальных LLM.
Ollama — удобный менеджер локальных моделей с поддержкой множества open‑weight LLM.

Hermes уже поставляется с поддержкой LM Studio и Ollama "из коробки" — это самый простой путь к локальному агенту.

Рекомендуемая связка:

GPU: NVIDIA RTX или RTX PRO.
Модель: Qwen 3.6 27B или 35B.
Runtime: llama.cpp / LM Studio / Ollama.

3. DGX Spark и обучающие материалы

Если вы планируете серьёзную инфраструктуру под агентов:

NVIDIA DGX Spark — компактная машина для круглосуточной работы Hermes и других агентов.
Для настройки есть Hermes DGX Spark playbook с подробными шагами.
NVIDIA запустила серию практических сессий "Build It Yourself" по агентному AI:
- Как строить автономных агентов с NemoClaw и OpenShell.

Заказать DGX Spark можно через партнёров NVIDIA в разделе marketplace.

Что ещё происходит вокруг RTX AI Garage

NVIDIA постепенно формирует вокруг RTX отдельную AI‑экосистему:

RTX AI Garage регулярно публикует новые открытые модели и агенты, оптимизированные под RTX.
Для общения и новостей есть:
- NVIDIA AI PC в Facebook, Instagram, TikTok и X.
- Рассылка RTX AI PC.
- NVIDIA Workstation в LinkedIn и X.

Для тех, кто строит локальные AI‑решения, Hermes + Qwen 3.6 + RTX/ DGX Spark — сейчас один из самых интересных стеков: самообучающийся агент, открытые веса и полноценный локальный контроль над данными.