- Дата публикации
Как спасти своих OpenClaw‑агентов после ограничений Claude: два пути через Hugging Face
Что появилось / что изменилось
Anthropic ограничила доступ к Claude в открытых агентских платформах: Pro/Max‑подписчики больше не могут просто так подключать Claude к OpenClaw, Pi или Open Code. В результате у многих агентские пайплайны буквально обрубило.
Hugging Face предлагает два варианта, как вернуть агентов к жизни и при этом не зависеть от закрытых API:
-
Хостинг через Hugging Face Inference Providers
- Поддержка тысяч открытых языковых моделей.
- Рекомендация Hugging Face: GLM‑5 с высокими результатами в бенчмарке Terminal Bench.
- Быстрый старт: один токен Hugging Face и одна команда в OpenClaw.
- Подписчики HF PRO получают $2 бесплатных кредитов в месяц, которые можно тратить на Inference Providers.
-
Полностью локальный запуск через llama.cpp
- Ноль затрат на API.
- Нет внешних запросов — всё крутится на вашем железе.
- Пример: Qwen3.5‑35B‑A3B‑GGUF, комфортно работающий при 32 ГБ RAM.
- Запуск через
llama-serverи подключение к OpenClaw как к OpenAI‑совместимому API.
Оба варианта позволяют заменить Claude в OpenClaw без подписки Anthropic и вернуть агентов в работу.
Как это работает
Вариант 1: Hugging Face Inference Providers
Hugging Face Inference Providers — это маршрутизатор к хостингам открытых моделей. Вы получаете один API‑ключ Hugging Face и через него обращаетесь к разным моделям.
Базовый сценарий для OpenClaw:
- Создаёте токен Hugging Face.
- В консоли OpenClaw вызываете:
openclaw onboard --auth-choice huggingface-api-key
- Вставляете токен и выбираете модель. Hugging Face советует GLM‑5 из‑за сильных результатов в Terminal Bench.
- В любой момент можно сменить модель, прописав её
repo_idв конфиге OpenClaw, например:
{
"agents": {
"defaults": {
"model": {
"primary": "huggingface/zai-org/GLM-5:fastest"
}
}
}
}
API остаётся единым, меняется только модель под капотом.
Вариант 2: локальный запуск через llama.cpp
Здесь вы сами хостите модель и эмулируете OpenAI‑совместимый API.
- Устанавливаете llama.cpp:
# macOS / Linux
brew install llama.cpp
# Windows
winget install llama.cpp
- Стартуете локальный сервер с web‑интерфейсом и моделью в формате GGUF:
llama-server -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL
Пример — Qwen3.5‑35B‑A3B, рассчитанный на машины с 32 ГБ оперативной памяти. Для других моделей нужно смотреть их требования к железу.
- Подключаете OpenClaw к локальному серверу как к OpenAI‑совместимому API:
openclaw onboard --non-interactive \
--auth-choice custom-api-key \
--custom-base-url "http://127.0.0.1:8080/v1" \
--custom-model-id "unsloth-qwen3.5-35b-a3b-gguf" \
--custom-api-key "llama.cpp" \
--secret-input-mode plaintext \
--custom-compatibility openai
- Проверяете, что сервер поднялся и модель загружена:
curl http://127.0.0.1:8080/v1/models
После этого OpenClaw общается с вашей локальной моделью так же, как раньше с Claude или другими API.
Что это значит для вас
Если у вас были агенты на OpenClaw, Pi или Open Code, которые завязаны на Claude, вы можете:
-
Быстро восстановить работу через Hugging Face Inference Providers.
Подходит для разработчиков, которым нужно просто вернуть продакшн‑агента к жизни без возни с железом. -
Перенести всё на локальный inference через llama.cpp.
Это вариант для тех, кто обрабатывает чувствительные данные, не хочет зависеть от внешних провайдеров и считает каждый доллар в счёте за API.
Где это полезно:
- Автоматизация разработки: агенты, которые пишут и рефакторят код в OpenClaw.
- Агентные ассистенты для терминала и DevOps‑рутину: CI/CD, лог‑анализ, мелкие скрипты.
- Исследовательские среды и прототипы, где важны эксперименты без жёстких лимитов по запросам.
Где стоит подумать дважды:
- Огромные продакшн‑нагрузки с жёсткими SLA: придётся внимательно считать стоимость inference у провайдера или тянущего локальный кластер.
- Машины с малым количеством RAM: Qwen3.5‑35B‑A3B нормально живёт на 32 ГБ, но на 8–16 ГБ придётся искать меньшие модели.
Доступность: Hugging Face как платформа формально доступен из России, но возможны сетевые ограничения и блокировки, так что часто нужен VPN или корпоративный обход.
Главный плюс — вам больше не нужен закрытый hosted‑мозг, чтобы OpenClaw снова начал отвечать и выполнять задачи.
Место на рынке
Здесь речь не про ещё один «условный GPT‑клон», а про инфраструктуру вокруг открытых моделей.
Hugging Face Inference Providers:
- Дает единый вход к тысячам open‑source‑моделей, включая GLM‑5 с высокими результатами в Terminal Bench.
- Конкурирует не с конкретной моделью вроде GPT‑5 или Claude 4, а с их экосистемой: вы меняете один закрытый API на набор открытых, но через единый ключ.
- HF PRO с $2 бесплатных кредитов в месяц снижает порог входа для небольших команд и пет‑проектов.
llama.cpp:
- Фактически стандарт де‑факто для локального запуска LLM на потребительском железе.
- В паре с OpenClaw даёт агентам оффлайн‑режим с нулевым счётом за запросы.
- Ограничение — вам нужно достаточно мощное железо: пример с Qwen3.5‑35B‑A3B и 32 ГБ RAM показывает, что ноутбуку начального уровня будет тяжело.
Если вы уже застряли между закрытыми API и требованиями к приватности, связка OpenClaw + Hugging Face + llama.cpp превращается в рабочую альтернативу: от быстрого облачного старта до полностью локального стека без зависимостей от Anthropic.