Дата публикации
ai_products

Как спасти своих OpenClaw‑агентов после ограничений Claude: два пути через Hugging Face

Что появилось / что изменилось

Anthropic ограничила доступ к Claude в открытых агентских платформах: Pro/Max‑подписчики больше не могут просто так подключать Claude к OpenClaw, Pi или Open Code. В результате у многих агентские пайплайны буквально обрубило.

Hugging Face предлагает два варианта, как вернуть агентов к жизни и при этом не зависеть от закрытых API:

  1. Хостинг через Hugging Face Inference Providers

    • Поддержка тысяч открытых языковых моделей.
    • Рекомендация Hugging Face: GLM‑5 с высокими результатами в бенчмарке Terminal Bench.
    • Быстрый старт: один токен Hugging Face и одна команда в OpenClaw.
    • Подписчики HF PRO получают $2 бесплатных кредитов в месяц, которые можно тратить на Inference Providers.
  2. Полностью локальный запуск через llama.cpp

    • Ноль затрат на API.
    • Нет внешних запросов — всё крутится на вашем железе.
    • Пример: Qwen3.5‑35B‑A3B‑GGUF, комфортно работающий при 32 ГБ RAM.
    • Запуск через llama-server и подключение к OpenClaw как к OpenAI‑совместимому API.

Оба варианта позволяют заменить Claude в OpenClaw без подписки Anthropic и вернуть агентов в работу.

Как это работает

Вариант 1: Hugging Face Inference Providers

Hugging Face Inference Providers — это маршрутизатор к хостингам открытых моделей. Вы получаете один API‑ключ Hugging Face и через него обращаетесь к разным моделям.

Базовый сценарий для OpenClaw:

  1. Создаёте токен Hugging Face.
  2. В консоли OpenClaw вызываете:
openclaw onboard --auth-choice huggingface-api-key
  1. Вставляете токен и выбираете модель. Hugging Face советует GLM‑5 из‑за сильных результатов в Terminal Bench.
  2. В любой момент можно сменить модель, прописав её repo_id в конфиге OpenClaw, например:
{
  "agents": {
    "defaults": {
      "model": {
        "primary": "huggingface/zai-org/GLM-5:fastest"
      }
    }
  }
}

API остаётся единым, меняется только модель под капотом.

Вариант 2: локальный запуск через llama.cpp

Здесь вы сами хостите модель и эмулируете OpenAI‑совместимый API.

  1. Устанавливаете llama.cpp:
# macOS / Linux
brew install llama.cpp

# Windows
winget install llama.cpp
  1. Стартуете локальный сервер с web‑интерфейсом и моделью в формате GGUF:
llama-server -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL

Пример — Qwen3.5‑35B‑A3B, рассчитанный на машины с 32 ГБ оперативной памяти. Для других моделей нужно смотреть их требования к железу.

  1. Подключаете OpenClaw к локальному серверу как к OpenAI‑совместимому API:
openclaw onboard --non-interactive \
  --auth-choice custom-api-key \
  --custom-base-url "http://127.0.0.1:8080/v1" \
  --custom-model-id "unsloth-qwen3.5-35b-a3b-gguf" \
  --custom-api-key "llama.cpp" \
  --secret-input-mode plaintext \
  --custom-compatibility openai
  1. Проверяете, что сервер поднялся и модель загружена:
curl http://127.0.0.1:8080/v1/models

После этого OpenClaw общается с вашей локальной моделью так же, как раньше с Claude или другими API.

Что это значит для вас

Если у вас были агенты на OpenClaw, Pi или Open Code, которые завязаны на Claude, вы можете:

  • Быстро восстановить работу через Hugging Face Inference Providers.
    Подходит для разработчиков, которым нужно просто вернуть продакшн‑агента к жизни без возни с железом.

  • Перенести всё на локальный inference через llama.cpp.
    Это вариант для тех, кто обрабатывает чувствительные данные, не хочет зависеть от внешних провайдеров и считает каждый доллар в счёте за API.

Где это полезно:

  • Автоматизация разработки: агенты, которые пишут и рефакторят код в OpenClaw.
  • Агентные ассистенты для терминала и DevOps‑рутину: CI/CD, лог‑анализ, мелкие скрипты.
  • Исследовательские среды и прототипы, где важны эксперименты без жёстких лимитов по запросам.

Где стоит подумать дважды:

  • Огромные продакшн‑нагрузки с жёсткими SLA: придётся внимательно считать стоимость inference у провайдера или тянущего локальный кластер.
  • Машины с малым количеством RAM: Qwen3.5‑35B‑A3B нормально живёт на 32 ГБ, но на 8–16 ГБ придётся искать меньшие модели.

Доступность: Hugging Face как платформа формально доступен из России, но возможны сетевые ограничения и блокировки, так что часто нужен VPN или корпоративный обход.

Главный плюс — вам больше не нужен закрытый hosted‑мозг, чтобы OpenClaw снова начал отвечать и выполнять задачи.

Место на рынке

Здесь речь не про ещё один «условный GPT‑клон», а про инфраструктуру вокруг открытых моделей.

Hugging Face Inference Providers:

  • Дает единый вход к тысячам open‑source‑моделей, включая GLM‑5 с высокими результатами в Terminal Bench.
  • Конкурирует не с конкретной моделью вроде GPT‑5 или Claude 4, а с их экосистемой: вы меняете один закрытый API на набор открытых, но через единый ключ.
  • HF PRO с $2 бесплатных кредитов в месяц снижает порог входа для небольших команд и пет‑проектов.

llama.cpp:

  • Фактически стандарт де‑факто для локального запуска LLM на потребительском железе.
  • В паре с OpenClaw даёт агентам оффлайн‑режим с нулевым счётом за запросы.
  • Ограничение — вам нужно достаточно мощное железо: пример с Qwen3.5‑35B‑A3B и 32 ГБ RAM показывает, что ноутбуку начального уровня будет тяжело.

Если вы уже застряли между закрытыми API и требованиями к приватности, связка OpenClaw + Hugging Face + llama.cpp превращается в рабочую альтернативу: от быстрого облачного старта до полностью локального стека без зависимостей от Anthropic.


Читайте также

Как спасти своих OpenClaw‑агентов после ограничений Claude: два пути через Hugging Face — VogueTech | VogueTech