Дата публикации
ai_products

Как запустить Google Gemma 4 на ноутбуке: новый headless-режим LM Studio и связка с Claude Code

Что появилось / что изменилось

LM Studio 0.4.0 перестал быть только настольным приложением. Разработчики вынесли ядро инференса в отдельный сервер llmster и добавили полноценный CLI.

Ключевые изменения:

  • llmster daemon — фоновый сервис, который загружает и обслуживает модели без GUI.
  • CLI lms — одна консольная утилита для скачивания, запуска, чата и поднятия локального API.
  • Headless-режим — LM Studio теперь можно запускать на сервере без графики, по SSH или в CI/CD.
  • Параллельная обработка запросов — вместо очереди используется непрерывный batching. Несколько запросов к одной модели обрабатываются одновременно.
  • Stateful REST API — новый endpoint /v1/chat хранит историю диалога между запросами.
  • Поддержка MCP (Model Context Protocol) с ключами доступа — для безопасной работы инструментов поверх локальной модели.

На этом фоне особенно интересно, что LM Studio научился комфортно обслуживать Google Gemma 4 26B-A4B локально. На примере: 14" MacBook Pro M4 Pro с 48 ГБ памяти выдаёт около 51 токена в секунду. Модель держит контекст до 256K токенов, умеет видеть изображения, вызывать функции/инструменты и работать в разных режимах «размышления».

Как это работает

Google Gemma 4 — это не один LLM, а семейство из четырёх моделей. В линейке есть плотная 31B и несколько вариантов с архитектурой Mixture-of-Experts (MoE), включая 26B-A4B.

У 26B-A4B:

  • Всего 25,2 млрд параметров.
  • 128 экспертов + 1 общий эксперт.
  • На каждый токен активируется только 8 экспертов — это примерно 3,8 млрд параметров на проход.

То есть память нужна как у компактной модели, а качество ближе к среднему классу. Приблизительную «эффективную плотность» автор оценивает как модель около 10B параметров. По бенчмаркам:

  • MMLU Pro — 82,6% (у плотной Gemma 4 31B — 85,2%).
  • AIME 2026 — 88,3% (у 31B — 89,2%).
  • Elo ≈ 1441 против ≈1451 у Gemma 4 31B.

При этом крупные модели вроде Qwen 3.5 397B-A17B (Elo ~1450), GLM-5 (~1457) и Kimi-K2.5 (~1457) тратят от 100 до 1000+ млрд параметров, чтобы выйти на похожие Elo-оценки. MoE в Gemma 4 26B-A4B даёт близкое качество с сильно меньшими ресурсами.

LM Studio 0.4.0 использует этот MoE-формат через свои рантаймы (llama.cpp, mlx на macOS). Вы поднимаете демон командой:

lms daemon up

и затем скачиваете модель:

lms get google/gemma-4-26b-a4b

Дальше Gemma 4 доступна через локальный REST API или напрямую из терминала. Автор подключает её к Claude Code через alias-команду, но отмечает заметные замедления внутри Claude Code по сравнению с «голым» LM Studio.

Что это значит для вас

Если вы:

  • пишете код и хотите локальный ассистент для ревью и генерации;
  • тестируете промпты и не хотите платить за каждый запрос;
  • переживаете за конфиденциальность данных;

Gemma 4 26B-A4B в связке с LM Studio — практичный вариант.

Плюсы для повседневной работы:

  • Ноль API-стоимости. Нет счётчиков токенов и неожиданных счетов в конце месяца.
  • Данные не уходят в облако. Всё остаётся на вашем ноутбуке или сервере.
  • Стабильный доступ. Никаких rate limit и падений внешних сервисов.
  • Длинный контекст 256K. Удобно для больших кодовых баз, длинных документов и цепочек сообщений.
  • Визуальный ввод. Можно анализировать скриншоты интерфейсов, диаграммы, схемы.
  • Функции/инструменты. Подходит для локальных агентных сценариев: от запуска скриптов до интеграции с внутренними сервисами.

Минусы и ограничения:

  • Нужен достаточно мощный Mac или ПК. Для комфортной работы автор использует 48 ГБ памяти. На 16 ГБ такая конфигурация вряд ли будет радовать.
  • В связке с Claude Code скорость падает. Если вам важен быстрый интерактив в IDE, лучше сначала протестировать, устраивает ли задержка.
  • По качеству Gemma 4 26B-A4B всё ещё не дотягивает до топовых облачных гигантов на сотни миллиардов параметров, особенно в сложном коде и длинных рассуждениях.

Где использовать:

  • локальный код-ассистент для небольших и средних проектов;
  • черновики текстов, техдоков, заметок;
  • быстрые эксперименты с промптами и инструментами без ожидания очереди в облаке.

Где лучше не рассчитывать только на неё:

  • критичные юридические или финансовые документы;
  • сложные исследовательские задачи, где важна максимальная точность рассуждений;
  • продакшен-сценарии с жёсткими SLA по времени ответа.

Доступность LM Studio и Gemma 4 может зависеть от региона и политики конкретных площадок распространения. При необходимости для скачивания может понадобиться VPN.

Место на рынке

Gemma 4 26B-A4B занимает любопытную нишу: это локальная модель, которая по метрикам подбирается к куда более тяжёлым системам.

По Elo:

  • Gemma 4 26B-A4B — ~1441.
  • Gemma 4 31B — ~1451.
  • Qwen 3.5 397B-A17B — ~1450.
  • GLM-5 — ~1457.
  • Kimi-K2.5 — ~1457.

Но разница в размере впечатляет:

  • Gemma 4 26B-A4B — 25,2B параметров, активных 3,8B на токен.
  • Конкуренты в районе 1450+ Elo — 100–600B параметров и больше, а Kimi-K2.5 переваливает за 1000B.

По бенчмаркам качества:

  • Gemma 4 26B-A4B: 82,6% MMLU Pro, 88,3% AIME 2026.
  • Gemma 4 31B: 85,2% MMLU Pro, 89,2% AIME 2026.

То есть 26B-A4B почти догоняет 31B по качеству, но работает быстрее и требует меньше памяти. Для локального инференса на ноутбуке с 48 ГБ это сейчас «золотая середина» внутри семейства Gemma 4.

Отдельный плюс — E-модели Gemma 4 (E2B, E4B). Они используют Per-Layer Embeddings и оптимизированы под запуск на устройстве. Это единственные варианты в линейке, которые принимают аудио на вход: распознают речь и переводят её. Если вам важны голосовые сценарии на устройстве, придётся смотреть именно на них, жертвуя частью мощности по сравнению с 26B-A4B и 31B.

В сумме получается связка: LM Studio 0.4.0 даёт удобный headless-режим и API, а Gemma 4 26B-A4B — достойное качество при ресурсах, доступных одному ноутбуку. Для разработчиков и тех, кто хочет частный LLM «у себя под столом», это сейчас один из самых рациональных вариантов.


Читайте также