- Дата публикации
Hermes: самообучающиеся локальные AI‑агенты на RTX и DGX Spark с Qwen 3.6
Что нового
Hermes Agent от Nous Research — новый открытый фреймворк для AI‑агентов, который за три месяца собрал более 140 000 звёзд на GitHub и по данным OpenRouter стал самым используемым агентом в мире.
Ключевые новшества и цифры:
- Самообучающиеся навыки: Hermes сам пишет и допиливает свои skills, сохраняя удачные решения для будущих задач.
- Изолированные подагенты: каждый сложный запрос агент разбивает на подзадачи и запускает короткоживущие sub‑agents с отдельным контекстом и набором инструментов.
- Ориентир на локальный запуск: Hermes изначально спроектировали как локального агента, который работает 24/7 на ПК с NVIDIA RTX, рабочих станциях NVIDIA RTX PRO и системе NVIDIA DGX Spark.
- Оптимизация под средние LLM: Hermes стабильно работает с локальными моделями уровня 30+ млрд параметров без постоянного ручного дебага.
Новый стек для локальных агентов строится вокруг линейки Qwen 3.6 от Alibaba:
- Qwen 3.6 35B:
- Требует около 20 ГБ памяти.
- По качеству обгоняет прошлые модели на 120 млрд параметров, которым нужно 70+ ГБ памяти.
- Qwen 3.6 27B:
- Плотная модель с большим числом активных параметров.
- По точности сопоставима с Qwen 3.5 397B (≈400B параметров), но при этом в 16 раз меньше по размеру.
На уровне железа:
- NVIDIA RTX / RTX PRO ускоряют инференс Qwen 3.6 за счёт Tensor Cores, сокращая задержку и увеличивая пропускную способность.
- NVIDIA DGX Spark выдаёт до 1 петафлопса AI‑производительности и 128 ГБ унифицированной памяти, чего хватает для круглосуточного запуска Mixture‑of‑Experts моделей на 120 млрд параметров.
- При этом та же Qwen 3.6 35B обеспечивает сопоставимый уровень "интеллекта" в гораздо меньшем размере, что даёт запас мощности для параллельных задач.
Как это работает
Архитектура Hermes
Hermes — это не просто тонкая обёртка над LLM, а активный оркестратор:
- Активный orchestration layer: фреймворк сам планирует шаги, управляет инструментами, хранит состояние и навыки на устройстве пользователя.
- Provider- и model-agnostic: Hermes не привязан к одному поставщику. Можно использовать Qwen 3.6, другие open‑weight LLM и разные runtime (llama.cpp, LM Studio, Ollama).
- Локальное хранение навыков: все новые skills и улучшения агент сохраняет локально, без отправки в облако.
Саморазвивающиеся навыки
Каждый раз, когда Hermes:
- сталкивается со сложной задачей;
- получает фидбек пользователя;
он:
- Формирует новый skill на основе успешного решения.
- Сохраняет его в библиотеку навыков.
- В будущем повторно использует и дорабатывает этот skill.
В итоге агент со временем всё лучше справляется именно с вашими типичными задачами.
Подагенты с изоляцией
Hermes запускает sub‑agents как временных "работников" под конкретные подзадачи:
- Каждый подагент получает узкий контекст и ограниченный список инструментов.
- После выполнения подзадачи подагент завершает работу.
- Главное "ядро" Hermes собирает результаты, контролирует ход задачи и решает, когда вызывать новых подагентов.
Плюсы:
- Меньше путаницы в контексте.
- Можно использовать меньшие окна контекста, что критично для локальных моделей.
- Проще отлаживать: ошибка изолирована в одном подагенте, а не размыта по всей сессии.
Надёжность по умолчанию
Nous Research вручную:
- отбирает и проверяет каждый skill;
- тестирует инструменты и плагины под нагрузкой.
Результат: Hermes стабильно работает даже с локальными моделями класса 30B+ параметров, без постоянных падений и ручного тюнинга, который часто нужен в других агентных фреймворках.
Почему важен выбор железа
И Hermes, и базовые модели (Qwen 3.6 и другие) рассчитаны на локальный запуск. Качество опыта напрямую зависит от GPU:
- NVIDIA RTX / RTX PRO:
- Tensor Cores ускоряют инференс LLM.
- Реальное преимущество — скорость многошаговых задач и дообучения skills: секунды вместо минут.
- NVIDIA DGX Spark:
- 128 ГБ унифицированной памяти позволяют запускать Mixture‑of‑Experts 120B.
- Для Qwen 3.6 35B этого более чем достаточно, остаётся ресурс на параллельные агенты, фоновую индексацию файлов и другие сервисы.
Связка с Qwen 3.6
Qwen 3.6 — серия open‑weight LLM от Alibaba, заточенная под локальный запуск:
- Qwen 3.6 35B:
- Около 20 ГБ памяти для работы.
- При этом превосходит старые 120B модели, которые требуют 70+ ГБ.
- Qwen 3.6 27B:
- Плотная архитектура с большим числом активных параметров.
- По точности сопоставима с Qwen 3.5 397B (≈400B) и при этом в 16 раз меньше.
Для Hermes это означает:
- можно запускать агента на одной мощной RTX‑карте;
- получить качество, которое раньше требовало датацентра.
Что это значит для вас
Для кого это вообще
Hermes на NVIDIA‑железе имеет смысл, если вы:
- энтузиаст локального AI и не хотите отправлять данные в облако;
- разработчик, который строит инструменты вокруг персональных агентов;
- работаете с чувствительными данными (документы, код, внутренние отчёты) и не можете выгружать их наружу.
Если вы живёте в России:
- GitHub, GitLab, Docker Hub и часть ресурсов по LLM могут требовать VPN из‑за ограничений и блокировок.
- Железо NVIDIA RTX / RTX PRO и DGX Spark поставляют через партнёров. Доступность и цены зависят от локальных поставщиков и ограничений.
Где Hermes полезен
1. Персональный агент на ПК
- Постоянно запущенный помощник, который:
- читает и организует локальные файлы;
- взаимодействует с приложениями;
- интегрируется с мессенджерами.
- Qwen 3.6 + RTX даёт приемлемую скорость даже на многошаговых задачах: сбор информации, генерация отчётов, черновики писем.
2. Помощник разработчика
- Локальный анализ кода и репозиториев.
- Автоматизация рутинных задач: генерация boilerplate, миграции, документация.
- Hermes постепенно накапливает skills под ваш стек и стиль.
3. Работа с документами и знаниями
- Обработка больших локальных архивов: PDF, презентации, таблицы.
- Поиск и разбор информации без выгрузки в облако.
- Автоматическое создание кратких выжимок и структурированных заметок.
4. Автономные сценарии 24/7
- На DGX Spark можно держать Hermes включённым постоянно:
- мониторинг данных и логов;
- периодические отчёты;
- поддержка нескольких агентов под разные задачи.
Где Hermes пока не лучшая идея
- Творческие задачи мирового уровня: генерация текста и кода у локальных моделей заметно улучшилась, но в задачах вроде сложной креативной режиссуры или тонкой литературной стилизации GPT‑4o и Claude 3.5 Opus пока часто сильнее.
- Сверхогромные контексты: Hermes умеет экономить контекст за счёт подагентов, но если вам нужны десятки тысяч токенов контекста в одном запросе, облачные модели всё ещё удобнее.
- Отсутствие мощного GPU: без RTX‑карты или аналогов запуск Qwen 3.6 на CPU будет слишком медленным для комфортной работы.
Место на рынке
Hermes и Qwen 3.6 играют в нише локальных open‑weight агентов. В этом сегменте конкурируют сразу несколько стеков.
По моделям
- Qwen 3.6 35B:
- Превосходит по качеству прошлые 120B модели при 20 ГБ vs 70+ ГБ памяти.
- Это делает её интересной альтернативой крупным open‑weight моделям, которые требуют датацентрового железа.
- Qwen 3.6 27B:
- Сопоставима по точности с Qwen 3.5 397B (около 400B параметров).
- При этом в 16 раз меньше, что заметно снижает требования к железу.
По сравнению с проприетарными облачными моделями вроде GPT‑4o или Claude 3.5:
- Qwen 3.6 выигрывает в контроле над данными и отсутствии зависимости от API.
- Качество рассуждений и креативности зависит от конкретного бенчмарка и задачи, но в бенчмарках Qwen 3.6 уже конкурирует с моделями, которые раньше требовали в разы больше параметров.
По агентным фреймворкам
Среди открытых агентных фреймворков сейчас активно обсуждают OpenClaw и стек вокруг него (NemoClaw, OpenShell). Hermes встраивается в этот ландшафт так:
- Hermes:
- Акцент на надёжности и локальном запуске 24/7.
- Саморазвивающиеся skills и изолированные sub‑agents.
- Мощная поддержка RTX и DGX Spark.
- NemoClaw:
- Открытый стек от NVIDIA для оптимизации OpenClaw на устройствах NVIDIA.
- Поддержка Windows Subsystem for Linux (WSL2).
- Ориентирован на повышение безопасности и поддержку локальных моделей.
Hermes хорошо сочетается с экосистемой RTX AI Garage, где NVIDIA активно оптимизирует открытые модели и агентные фреймворки под своё железо.
Другие модели в экосистеме RTX AI Garage
NVIDIA параллельно продвигает и другие LLM для локального запуска:
- Qwen 3.6 + llama.cpp:
- На NVIDIA RTX PRO GPUs генерация токенов ускоряется до 3 раз.
- Это критично для агентов, которые выполняют многошаговые задачи и часто обновляют свои skills.
- Google Gemma 4 26B и 31B:
- Доступны как NVFP4 checkpoints для ускоренной работы на NVIDIA Blackwell GPUs.
- В связке с Multi‑Token Prediction drafters от Google дают до 3x ускорения инференса при том же качестве вывода.
- Mistral Medium 3.5:
- Получила поддержку llama.cpp и Ollama.
- Можно запускать на NVIDIA RTX PRO и DGX Spark.
Для пользователя это означает: Hermes — не одиночный проект, а часть более широкой экосистемы открытых моделей, оптимизированных под RTX.
Как запустить
Hermes изначально рассчитан на локальный запуск с популярными runtime.
1. Где взять Hermes
- Перейдите в репозиторий Hermes на GitHub — там лежит исходный код, инструкции и примеры.
2. Выбор runtime и модели
Hermes работает с разными локальными стеками:
- llama.cpp — для лёгких и производительных сборок под CPU/GPU, в том числе Qwen 3.6.
- LM Studio — десктопный интерфейс для локальных LLM.
- Ollama — удобный менеджер локальных моделей с поддержкой множества open‑weight LLM.
Hermes уже поставляется с поддержкой LM Studio и Ollama "из коробки" — это самый простой путь к локальному агенту.
Рекомендуемая связка:
- GPU: NVIDIA RTX или RTX PRO.
- Модель: Qwen 3.6 27B или 35B.
- Runtime: llama.cpp / LM Studio / Ollama.
3. DGX Spark и обучающие материалы
Если вы планируете серьёзную инфраструктуру под агентов:
- NVIDIA DGX Spark — компактная машина для круглосуточной работы Hermes и других агентов.
- Для настройки есть Hermes DGX Spark playbook с подробными шагами.
- NVIDIA запустила серию практических сессий "Build It Yourself" по агентному AI:
- Как строить автономных агентов с NemoClaw и OpenShell.
Заказать DGX Spark можно через партнёров NVIDIA в разделе marketplace.
Что ещё происходит вокруг RTX AI Garage
NVIDIA постепенно формирует вокруг RTX отдельную AI‑экосистему:
- RTX AI Garage регулярно публикует новые открытые модели и агенты, оптимизированные под RTX.
- Для общения и новостей есть:
- NVIDIA AI PC в Facebook, Instagram, TikTok и X.
- Рассылка RTX AI PC.
- NVIDIA Workstation в LinkedIn и X.
Для тех, кто строит локальные AI‑решения, Hermes + Qwen 3.6 + RTX/ DGX Spark — сейчас один из самых интересных стеков: самообучающийся агент, открытые веса и полноценный локальный контроль над данными.