Gemma 4: новые открытые ИИ‑модели от Google для ноутбука, сервера и «малинки» — VogueTech

Что появилось / что изменилось

Google DeepMind представила линейку открытых моделей Gemma 4. Это продолжение исследований Gemini 3, но в формате моделей с открытыми весами.

Четыре основных варианта:

Gemma 4 E2B — компактная модель для слабых устройств.
Gemma 4 E4B — более мощная версия для edge‑устройств.
Gemma 4 26B — крупная модель для рабочих станций и потребительских GPU.
Gemma 4 31B — самая сильная из линейки, тоже под настольные GPU.

Ключевые возможности:

Мультимодальность: текст, изображение и аудио. E‑серия (E2B/E4B) рассчитана на обработку аудио и видео прямо на устройстве, без облака.
Агентные сценарии: встроенная поддержка function calling. Можно строить агентов, которые планируют шаги, ходят по API и выполняют задачи в приложениях.
140 языков: модели понимают и генерируют текст на большом количестве языков и учитывают культурный контекст, а не только «сухой» перевод.
Тонкая настройка: официальная поддержка fine‑tuning через JAX, Keras, Vertex AI и другие фреймворки.
Открытые веса: модели доступны на Hugging Face, Kaggle, Ollama, LM Studio, в Docker‑образах.

Производительность по бенчмаркам (важные цифры):

MMMLU (многоязычный Q&A, без инструментов):
- Gemma 4 31B IT Thinking — 85,2%
- Gemma 4 26B A4B IT Thinking — 82,6%
- Gemma 4 E4B IT Thinking — 69,4%
- Gemma 4 E2B IT Thinking — 60,0%
- Gemma 3 27B IT — 67,6%
MMMU Pro (мультимодальные задачи):
- 31B — 76,9%
- 26B — 73,8%
- E4B — 52,6%
- E2B — 44,2%
- Gemma 3 27B — 49,7%
AIME 2026 (математика, без инструментов):
- 31B — 89,2%
- 26B — 88,3%
- E4B — 42,5%
- E2B — 37,5%
- Gemma 3 27B — 20,8%
LiveCodeBench v6 (соревновательное программирование):
- 31B — 80,0%
- 26B — 77,1%
- E4B — 52,0%
- E2B — 44,0%
- Gemma 3 27B — 29,1%
GPQA Diamond (научные знания, без инструментов):
- 31B — 84,3%
- 26B — 82,3%
- E4B — 58,6%
- E2B — 43,4%
- Gemma 3 27B — 42,4%
τ2‑bench (агентный tool‑use в ритейле):
- 31B — 86,4%
- 26B — 85,5%
- E4B — 57,5%
- E2B — 29,4%
- Gemma 3 27B — 6,6%

По этим метрикам 26B и 31B заметно обгоняют прошлую Gemma 3 27B, особенно в математике, коде и агентных сценариях.

Как это работает

Gemma 4 строится на исследованиях Gemini 3, но Google отдала веса в открытый доступ. Это не облачный сервис, а именно набор моделей, которые можно запускать локально или в своём кластере.

Линейка разделена по архитектуре и ресурсоёмкости:

E2B и E4B оптимизированы по вычислениям и памяти. Их задача — работать на edge‑устройствах: смартфонах, Raspberry Pi, Jetson Nano и других платформах с ограниченными ресурсами. Они поддерживают аудио и видео, могут обрабатывать данные в реальном времени и работать полностью офлайн.
26B и 31B рассчитаны на настольные и серверные GPU. Google ориентируется на сценарий «локальный AI‑сервер на рабочей станции»: IDE‑плагины, локальные ассистенты, сложные агенты. Модели обучены на сложных задачах рассуждения и кодинга, что видно по LiveCodeBench и AIME.

Gemma 4 поддерживает function calling «из коробки». Модель может сама решать, когда вызвать внешнюю функцию, передать ей параметры и использовать ответ в диалоге. Это база для ассистентов, которые ходят в CRM, таск‑трекеры, базы знаний.

Для обучения и деплоя Google предлагает:

JAX и Keras для дообучения;
Vertex AI и Google Kubernetes Engine для продакшн‑запуска;
Google AI Edge и Cactus для развёртывания на edge‑железе;
Ollama, LM Studio, Docker для локального запуска без глубокой DevOps‑экспертизы.

Отдельный блок — безопасность. Gemma 4 проходит те же инфраструктурные проверки, что и закрытые модели Google. Это важно для корпораций и госструктур, которым нужны прозрачные и управляемые решения с открытыми весами.

Что это значит для вас

Если вы разработчик или исследователь:

Нужен сильный локальный ассистент по коду — смотрите на Gemma 4 26B или 31B. По LiveCodeBench они набирают 77,1% и 80,0%, что делает их интересными для IDE‑плагинов и автодополнения кода.
Если вы строите агентов, которые ходят по API, управляют приложениями и решают цепочки задач, 26B и 31B показывают 85,5–86,4% на τ2‑bench. Это хороший ориентир для прототипов и внутренних инструментов.
Для экспериментов с мультимодальностью (текст + изображение + аудио) подойдут все варианты, но E‑серия удобнее, если вы хотите обрабатывать данные прямо на устройстве пользователя.

Если вы делаете продукт на edge‑устройствах:

E2B и E4B созданы для сценариев «на телефоне» и IoT. Они работают офлайн, с низкой задержкой, и поддерживают аудио и видео. Это подходит для голосовых ассистентов, локальных модераторов контента, умных камер и сенсоров.
E2B — для максимально ограниченного железа. E4B — когда можно позволить себе чуть больше памяти и мощности и получить лучшую точность (например, 52,6% против 44,2% на MMMU Pro).

Если вы бизнес или госструктура:

Открытые веса позволяют развернуть Gemma 4 в своём контуре, без отправки данных в облако Google.
Модели можно адаптировать под свои доменные данные через fine‑tuning и держать результат у себя.

Доступность: Gemma 4 распространяется через Google AI Studio, Google AI Edge, а также платформы вроде Hugging Face и Kaggle. Формально доступ не ограничен по странам, но для работы с Google AI Studio и некоторыми сервисами Google в России часто нужен VPN и аккаунт, который не заблокирован по региону.

Если вы хотите полностью избежать зависимости от географии, удобнее брать веса с Hugging Face или Ollama и запускать локально.

Место на рынке

Gemma 4 — это не один чат‑бот, а целая линейка открытых моделей, которые Google позиционирует как продолжение Gemini 3 в открытом мире. Важный акцент — интеллект на параметр: 26B и 31B стремятся дать «фронтирный» уровень рассуждений без сотен миллиардов параметров и огромных кластеров.

По цифрам внутри экосистемы Google:

Gemma 4 31B обгоняет Gemma 3 27B по MMMLU (85,2% против 67,6%), по мультимодальному MMMU Pro (76,9% против 49,7%) и особенно по математике AIME 2026 (89,2% против 20,8%).
В кодинге рост тоже заметен: 80,0% против 29,1% на LiveCodeBench v6.
В агентных сценариях τ2‑bench прыгает с 6,6% у Gemma 3 27B до 86,4% у Gemma 4 31B.

E‑серия закрывает другой сегмент — компактные модели с поддержкой аудио и видео, которые можно крутить на телефонах и платах вроде Raspberry Pi и Jetson Nano. Здесь Google делает ставку на офлайн‑сценарии и почти нулевую задержку на устройстве.

Если вам нужен открытый стек, который можно развернуть у себя — Gemma 4 сейчас одна из самых интересных линеек с публичными весами от крупного игрока. При этом выбор между E2B/E4B и 26B/31B зависит не от моды, а от вашего железа и задач: от «умной камеры» на edge до локального AI‑сервера для команды разработчиков.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также