Как спасти своих OpenClaw‑агентов после ограничений Claude: два пути через Hugging Face — VogueTech

Что появилось / что изменилось

Anthropic ограничила доступ к Claude в открытых агентских платформах: Pro/Max‑подписчики больше не могут просто так подключать Claude к OpenClaw, Pi или Open Code. В результате у многих агентские пайплайны буквально обрубило.

Hugging Face предлагает два варианта, как вернуть агентов к жизни и при этом не зависеть от закрытых API:

Хостинг через Hugging Face Inference Providers
- Поддержка тысяч открытых языковых моделей.
- Рекомендация Hugging Face: GLM‑5 с высокими результатами в бенчмарке Terminal Bench.
- Быстрый старт: один токен Hugging Face и одна команда в OpenClaw.
- Подписчики HF PRO получают $2 бесплатных кредитов в месяц, которые можно тратить на Inference Providers.
Полностью локальный запуск через llama.cpp
- Ноль затрат на API.
- Нет внешних запросов — всё крутится на вашем железе.
- Пример: Qwen3.5‑35B‑A3B‑GGUF, комфортно работающий при 32 ГБ RAM.
- Запуск через llama-server и подключение к OpenClaw как к OpenAI‑совместимому API.

Оба варианта позволяют заменить Claude в OpenClaw без подписки Anthropic и вернуть агентов в работу.

Как это работает

Вариант 1: Hugging Face Inference Providers

Hugging Face Inference Providers — это маршрутизатор к хостингам открытых моделей. Вы получаете один API‑ключ Hugging Face и через него обращаетесь к разным моделям.

Базовый сценарий для OpenClaw:

Создаёте токен Hugging Face.
В консоли OpenClaw вызываете:

openclaw onboard --auth-choice huggingface-api-key

Вставляете токен и выбираете модель. Hugging Face советует GLM‑5 из‑за сильных результатов в Terminal Bench.
В любой момент можно сменить модель, прописав её repo_id в конфиге OpenClaw, например:

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "huggingface/zai-org/GLM-5:fastest"
      }
    }
  }
}

API остаётся единым, меняется только модель под капотом.

Вариант 2: локальный запуск через llama.cpp

Здесь вы сами хостите модель и эмулируете OpenAI‑совместимый API.

Устанавливаете llama.cpp:

# macOS / Linux
brew install llama.cpp

# Windows
winget install llama.cpp

Стартуете локальный сервер с web‑интерфейсом и моделью в формате GGUF:

llama-server -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL

Пример — Qwen3.5‑35B‑A3B, рассчитанный на машины с 32 ГБ оперативной памяти. Для других моделей нужно смотреть их требования к железу.

Подключаете OpenClaw к локальному серверу как к OpenAI‑совместимому API:

openclaw onboard --non-interactive \
  --auth-choice custom-api-key \
  --custom-base-url "http://127.0.0.1:8080/v1" \
  --custom-model-id "unsloth-qwen3.5-35b-a3b-gguf" \
  --custom-api-key "llama.cpp" \
  --secret-input-mode plaintext \
  --custom-compatibility openai

Проверяете, что сервер поднялся и модель загружена:

curl http://127.0.0.1:8080/v1/models

После этого OpenClaw общается с вашей локальной моделью так же, как раньше с Claude или другими API.

Что это значит для вас

Если у вас были агенты на OpenClaw, Pi или Open Code, которые завязаны на Claude, вы можете:

Быстро восстановить работу через Hugging Face Inference Providers.
Подходит для разработчиков, которым нужно просто вернуть продакшн‑агента к жизни без возни с железом.
Перенести всё на локальный inference через llama.cpp.
Это вариант для тех, кто обрабатывает чувствительные данные, не хочет зависеть от внешних провайдеров и считает каждый доллар в счёте за API.

Где это полезно:

Автоматизация разработки: агенты, которые пишут и рефакторят код в OpenClaw.
Агентные ассистенты для терминала и DevOps‑рутину: CI/CD, лог‑анализ, мелкие скрипты.
Исследовательские среды и прототипы, где важны эксперименты без жёстких лимитов по запросам.

Где стоит подумать дважды:

Огромные продакшн‑нагрузки с жёсткими SLA: придётся внимательно считать стоимость inference у провайдера или тянущего локальный кластер.
Машины с малым количеством RAM: Qwen3.5‑35B‑A3B нормально живёт на 32 ГБ, но на 8–16 ГБ придётся искать меньшие модели.

Доступность: Hugging Face как платформа формально доступен из России, но возможны сетевые ограничения и блокировки, так что часто нужен VPN или корпоративный обход.

Главный плюс — вам больше не нужен закрытый hosted‑мозг, чтобы OpenClaw снова начал отвечать и выполнять задачи.

Место на рынке

Здесь речь не про ещё один «условный GPT‑клон», а про инфраструктуру вокруг открытых моделей.

Hugging Face Inference Providers:

Дает единый вход к тысячам open‑source‑моделей, включая GLM‑5 с высокими результатами в Terminal Bench.
Конкурирует не с конкретной моделью вроде GPT‑5 или Claude 4, а с их экосистемой: вы меняете один закрытый API на набор открытых, но через единый ключ.
HF PRO с $2 бесплатных кредитов в месяц снижает порог входа для небольших команд и пет‑проектов.

llama.cpp:

Фактически стандарт де‑факто для локального запуска LLM на потребительском железе.
В паре с OpenClaw даёт агентам оффлайн‑режим с нулевым счётом за запросы.
Ограничение — вам нужно достаточно мощное железо: пример с Qwen3.5‑35B‑A3B и 32 ГБ RAM показывает, что ноутбуку начального уровня будет тяжело.

Если вы уже застряли между закрытыми API и требованиями к приватности, связка OpenClaw + Hugging Face + llama.cpp превращается в рабочую альтернативу: от быстрого облачного старта до полностью локального стека без зависимостей от Anthropic.