Как запустить Google Gemma 4 на ноутбуке: новый headless-режим LM Studio и связка с Claude Code — VogueTech

Что появилось / что изменилось

LM Studio 0.4.0 перестал быть только настольным приложением. Разработчики вынесли ядро инференса в отдельный сервер llmster и добавили полноценный CLI.

Ключевые изменения:

llmster daemon — фоновый сервис, который загружает и обслуживает модели без GUI.
CLI lms — одна консольная утилита для скачивания, запуска, чата и поднятия локального API.
Headless-режим — LM Studio теперь можно запускать на сервере без графики, по SSH или в CI/CD.
Параллельная обработка запросов — вместо очереди используется непрерывный batching. Несколько запросов к одной модели обрабатываются одновременно.
Stateful REST API — новый endpoint /v1/chat хранит историю диалога между запросами.
Поддержка MCP (Model Context Protocol) с ключами доступа — для безопасной работы инструментов поверх локальной модели.

На этом фоне особенно интересно, что LM Studio научился комфортно обслуживать Google Gemma 4 26B-A4B локально. На примере: 14" MacBook Pro M4 Pro с 48 ГБ памяти выдаёт около 51 токена в секунду. Модель держит контекст до 256K токенов, умеет видеть изображения, вызывать функции/инструменты и работать в разных режимах «размышления».

Как это работает

Google Gemma 4 — это не один LLM, а семейство из четырёх моделей. В линейке есть плотная 31B и несколько вариантов с архитектурой Mixture-of-Experts (MoE), включая 26B-A4B.

У 26B-A4B:

Всего 25,2 млрд параметров.
128 экспертов + 1 общий эксперт.
На каждый токен активируется только 8 экспертов — это примерно 3,8 млрд параметров на проход.

То есть память нужна как у компактной модели, а качество ближе к среднему классу. Приблизительную «эффективную плотность» автор оценивает как модель около 10B параметров. По бенчмаркам:

MMLU Pro — 82,6% (у плотной Gemma 4 31B — 85,2%).
AIME 2026 — 88,3% (у 31B — 89,2%).
Elo ≈ 1441 против ≈1451 у Gemma 4 31B.

При этом крупные модели вроде Qwen 3.5 397B-A17B (Elo ~1450), GLM-5 (~1457) и Kimi-K2.5 (~1457) тратят от 100 до 1000+ млрд параметров, чтобы выйти на похожие Elo-оценки. MoE в Gemma 4 26B-A4B даёт близкое качество с сильно меньшими ресурсами.

LM Studio 0.4.0 использует этот MoE-формат через свои рантаймы (llama.cpp, mlx на macOS). Вы поднимаете демон командой:

lms daemon up

и затем скачиваете модель:

lms get google/gemma-4-26b-a4b

Дальше Gemma 4 доступна через локальный REST API или напрямую из терминала. Автор подключает её к Claude Code через alias-команду, но отмечает заметные замедления внутри Claude Code по сравнению с «голым» LM Studio.

Что это значит для вас

Если вы:

пишете код и хотите локальный ассистент для ревью и генерации;
тестируете промпты и не хотите платить за каждый запрос;
переживаете за конфиденциальность данных;

Gemma 4 26B-A4B в связке с LM Studio — практичный вариант.

Плюсы для повседневной работы:

Ноль API-стоимости. Нет счётчиков токенов и неожиданных счетов в конце месяца.
Данные не уходят в облако. Всё остаётся на вашем ноутбуке или сервере.
Стабильный доступ. Никаких rate limit и падений внешних сервисов.
Длинный контекст 256K. Удобно для больших кодовых баз, длинных документов и цепочек сообщений.
Визуальный ввод. Можно анализировать скриншоты интерфейсов, диаграммы, схемы.
Функции/инструменты. Подходит для локальных агентных сценариев: от запуска скриптов до интеграции с внутренними сервисами.

Минусы и ограничения:

Нужен достаточно мощный Mac или ПК. Для комфортной работы автор использует 48 ГБ памяти. На 16 ГБ такая конфигурация вряд ли будет радовать.
В связке с Claude Code скорость падает. Если вам важен быстрый интерактив в IDE, лучше сначала протестировать, устраивает ли задержка.
По качеству Gemma 4 26B-A4B всё ещё не дотягивает до топовых облачных гигантов на сотни миллиардов параметров, особенно в сложном коде и длинных рассуждениях.

Где использовать:

локальный код-ассистент для небольших и средних проектов;
черновики текстов, техдоков, заметок;
быстрые эксперименты с промптами и инструментами без ожидания очереди в облаке.

Где лучше не рассчитывать только на неё:

критичные юридические или финансовые документы;
сложные исследовательские задачи, где важна максимальная точность рассуждений;
продакшен-сценарии с жёсткими SLA по времени ответа.

Доступность LM Studio и Gemma 4 может зависеть от региона и политики конкретных площадок распространения. При необходимости для скачивания может понадобиться VPN.

Место на рынке

Gemma 4 26B-A4B занимает любопытную нишу: это локальная модель, которая по метрикам подбирается к куда более тяжёлым системам.

По Elo:

Gemma 4 26B-A4B — ~1441.
Gemma 4 31B — ~1451.
Qwen 3.5 397B-A17B — ~1450.
GLM-5 — ~1457.
Kimi-K2.5 — ~1457.

Но разница в размере впечатляет:

Gemma 4 26B-A4B — 25,2B параметров, активных 3,8B на токен.
Конкуренты в районе 1450+ Elo — 100–600B параметров и больше, а Kimi-K2.5 переваливает за 1000B.

По бенчмаркам качества:

Gemma 4 26B-A4B: 82,6% MMLU Pro, 88,3% AIME 2026.
Gemma 4 31B: 85,2% MMLU Pro, 89,2% AIME 2026.

То есть 26B-A4B почти догоняет 31B по качеству, но работает быстрее и требует меньше памяти. Для локального инференса на ноутбуке с 48 ГБ это сейчас «золотая середина» внутри семейства Gemma 4.

Отдельный плюс — E-модели Gemma 4 (E2B, E4B). Они используют Per-Layer Embeddings и оптимизированы под запуск на устройстве. Это единственные варианты в линейке, которые принимают аудио на вход: распознают речь и переводят её. Если вам важны голосовые сценарии на устройстве, придётся смотреть именно на них, жертвуя частью мощности по сравнению с 26B-A4B и 31B.

В сумме получается связка: LM Studio 0.4.0 даёт удобный headless-режим и API, а Gemma 4 26B-A4B — достойное качество при ресурсах, доступных одному ноутбуку. Для разработчиков и тех, кто хочет частный LLM «у себя под столом», это сейчас один из самых рациональных вариантов.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также