- Дата публикации
Gemma 4 на Hugging Face: мультимодальный ИИ, который реально работает на устройстве
Что появилось / что изменилось
Google DeepMind выкатил семейство Gemma 4 на Hugging Face — и это не одна модель, а сразу четыре варианта под разные задачи и железо.
Размеры и контекст:
- Gemma 4 E2B — 2,3 млрд эффективных параметров, 5,1 млрд с эмбеддингами, контекст 128k токенов.
- Gemma 4 E4B — 4,5 млрд эффективных параметров, 8 млрд с эмбеддингами, контекст 128k токенов.
- Gemma 4 31B — плотная модель на 31 млрд параметров, контекст 256k токенов.
- Gemma 4 26B A4B MoE — смесь экспертов: 26 млрд параметров всего, 4 млрд активных на токен, контекст 256k токенов.
Все варианты доступны в двух режимах: base и instruction-tuned (IT).
По типам данных:
- Все модели понимают текст + изображения (и видео как последовательность кадров) и отвечают текстом.
- Младшие версии E2B и E4B дополнительно принимают аудио.
По качеству:
- Gemma 4 31B набирает примерно 1452 балла в LMArena (текст, оценка по аренам).
- Gemma 4 26B MoE — около 1441 балла при 4 млрд активных параметров.
Для ориентира: это примерно уровень GLM-5 и Kimi K2.5, но при порядка в 30 раз меньшем числе параметров.
Юридический статус и экосистема:
- Лицензия Apache 2.0 — можно использовать в коммерческих продуктах.
- Поддержка в Transformers, llama.cpp, MLX, WebGPU, Rust и других популярных стеках, всё уже есть на Hugging Face.
Как это работает
Gemma 4 — это не одна трюк-фича, а набор понятных инженерных решений, собранных под длинный контекст и мультимодальность.
Ключевые элементы архитектуры:
-
Чередование типов внимания. В декодере идут слои с локальным скользящим окном и слои с полным вниманием по всему контексту.
- Для маленьких моделей окно 512 токенов.
- Для крупных — 1024 токена.
-
Двойной RoPE.
- Обычный RoPE для слоёв со скользящим окном.
- Пропорциональный RoPE для глобальных слоёв, что помогает вытянуть контекст до 128k–256k токенов без полного развала качества.
-
Per-Layer Embeddings (PLE) в меньших моделях.
- Помимо стандартного эмбеддинга на входе, у токена появляется второй, маломерный вектор для каждого слоя.
- Он собирается из двух частей: эмбеддинг токена + проекция основного эмбеддинга с учётом контекста.
- Этот сигнал добавляется как небольшой резидуал в каждый слой, разгружая базовый эмбеддинг от необходимости «зашить всё сразу».
-
Shared KV Cache.
- В последних слоях модель переиспользует key-value состояния из более ранних слоёв.
- Это уменьшает число KV-проекций и экономит память и время на длинных контекстах.
-
Визуальный энкодер.
- Использует обучаемые 2D-позиции и многомерный RoPE.
- Сохраняет исходное соотношение сторон изображения.
- Умеет кодировать картинку в разные бюджеты токенов: 70, 140, 280, 560 или 1120 токенов — можно выбирать баланс между скоростью, памятью и качеством.
-
Аудиоэнкодер.
- Стек в стиле USM Conformer, тот же базовый подход, что и в Gemma‑3n.
- Работает в младших моделях E2B и E4B.
Что это значит для вас
Gemma 4 — это история про «мультимодальный ИИ, который можно реально запускать почти везде».
Когда и что брать:
-
Gemma 4 E2B (2,3B)
- Для: ноутбуков, настольных ПК, мощных планшетов, edge-устройств.
- Задачи: локальный ассистент, базовый анализ изображений, простые голосовые интерфейсы, чат-боты внутри продукта.
- Плюс: есть аудио, небольшой объём, проще квантизовать и засунуть на устройство.
-
Gemma 4 E4B (4,5B)
- Для: тех же сценариев, но когда хочется более уверенного качества текста и мультимодальных ответов.
- Задачи: локальные RAG-системы, прототипы агентов, которые читают документы и скриншоты, голосовые ассистенты с пониманием контекста.
-
Gemma 4 31B
- Для: серверов, облака, on-prem инсталляций.
- Задачи: продвинутые ассистенты, сложный код, длинные отчёты, креативный текст, разбор больших документов до 256k токенов.
- Если вы строите внутренний аналог GPT-класса, но хотите держать веса у себя, это основной кандидат.
-
Gemma 4 26B MoE (4B активных)
- Для: когда важен баланс между качеством и ресурсами.
- Задачи: те же, что у 31B, но с экономией вычислений за счёт 4 млрд активных параметров.
- Подходит для сервисов, где много одновременных запросов и нужно держать стоимость инференса под контролем.
Где Gemma 4 особенно уместна:
- Продукты, где нельзя выносить данные в облако и нужен локальный или on-prem ИИ.
- Мультимодальные сценарии: разбор скриншотов, документов с картинками, интерфейсы «показал — спросил», базовая работа с видео.
- Аудиоприложения на E2B/E4B: расшифровка речи, голосовые помощники, голосовые заметки с разбором смысла.
Где стоит быть осторожнее:
- Если нужен чисто текстовый ассистент «максимального уровня», придётся сравнивать Gemma 4 с GPT-5, Claude 4 и другими тяжёлыми моделями по вашим метрикам.
- Для очень слабых смартфонов даже E2B может оказаться тяжёлой без агрессивной квантизации.
- Для продакшена с миллионами пользователей потребуется тонкая настройка под вашу доменную область, даже если базовые чекпоинты уже сильные.
Gemma 4 доступна через Hugging Face. Для прямого доступа к репозиториям может понадобиться VPN, если у вас ограничен доступ к зарубежным ресурсам.
Место на рынке
По цифрам LMArena Gemma 4 31B и Gemma 4 26B MoE выходят на уровень GLM-5 и Kimi K2.5, но делают это с примерно 30-кратным преимуществом по числу параметров в сторону компактности.
Это важно для двух вещей:
- Инференс дешевле. Меньше параметров — меньше памяти и FLOPs при близком качестве текста.
- Проще запускать на устройстве. Особенно это чувствуется на E2B и E4B: мультимодальность без гигантских весов.
На фоне закрытых гигантов вроде GPT-5 или Claude 4 Gemma 4 берёт другим:
- Apache 2.0 позволяет встроить модель прямо в продукт без сложных юридических схем.
- Полноценная мультимодальность (текст + изображение + аудио в младших версиях) и длинный контекст до 256k токенов доступны в открытом стеке.
Если вы строите сервис на открытых весах, сейчас это один из самых интересных вариантов для мультимодальных и on-device сценариев. Если вы завязаны на максимальное качество текста без ограничений по лицензиям и инфраструктуре, придётся дополнительно сравнить Gemma 4 с крупными закрытыми моделями на ваших данных и задачах.