Gemma 4: новая линейка открытых мультимодальных моделей от Google DeepMind

Что нового

Google DeepMind выпустила семейство открытых моделей Gemma 4. Это мультимодальные модели, которые понимают текст и изображения во всех вариантах, а младшие версии ещё и аудио и видео. Выход сопровождается открытыми весами и двумя типами вариантов: предобученные и instruction-tuned.

Ключевые цифры и характеристики:

Размеры моделей:
- Gemma 4 E2B — 2,3B эффективных параметров (5,1B с эмбеддингами)
- Gemma 4 E4B — 4,5B эффективных параметров (8B с эмбеддингами)
- Gemma 4 26B A4B MoE — 25,2B общих параметров, 3,8B активных
- Gemma 4 31B Dense — 30,7B параметров
Мультимодальность:
- Все модели: текст + изображения, поддержка переменного соотношения сторон и разрешения
- Видео: поддержка обработки видео как последовательности кадров (все модели)
- Аудио: поддержка только в E2B и E4B (ASR и перевод речи)
Контекст:
- E2B и E4B: до 128K токенов
- 26B A4B и 31B: до 256K токенов
Архитектуры:
- Плотные (Dense) модели: E2B, E4B, 31B
- Mixture-of-Experts (MoE): 26B A4B с 8 активными экспертами из 128 + 1 общий
Производительность на бенчмарках (instruction-tuned):
- MMLU Pro: 85,2% (31B), 82,6% (26B A4B), 69,4% (E4B), 60,0% (E2B), против 67,6% у Gemma 3 27B
- AIME 2026 (no tools): 89,2% (31B), 88,3% (26B A4B), 42,5% (E4B), 37,5% (E2B), при 20,8% у Gemma 3 27B
- LiveCodeBench v6: 80,0% (31B), 77,1% (26B A4B), 52,0% (E4B), 44,0% (E2B), против 29,1% у Gemma 3 27B
- Codeforces ELO: 2150 (31B), 1718 (26B A4B), 940 (E4B), 633 (E2B), при 110 у Gemma 3 27B
- GPQA Diamond: 84,3% (31B), 82,3% (26B A4B), 58,6% (E4B), 43,4% (E2B), против 42,4% у Gemma 3 27B
- BigBench Hard: 74,4% (31B), 64,8% (26B A4B), 33,1% (E4B), 21,9% (E2B), при 19,3% у Gemma 3 27B
- MMMLU (vision): 88,4% (31B), 86,3% (26B A4B), 76,6% (E4B), 67,4% (E2B), против 70,7% у Gemma 3 27B
- Vision MMMU Pro: 76,9% (31B), 73,8% (26B A4B), 52,6% (E4B), 44,2% (E2B), при 49,7% у Gemma 3 27B
- MATH-Vision: 85,6% (31B), 82,4% (26B A4B), 59,5% (E4B), 52,4% (E2B), против 46,0% у Gemma 3 27B
- MedXPertQA MM: 61,3% (31B), 58,1% (26B A4B), 28,7% (E4B), 23,5% (E2B)
- OmniDocBench 1.5 (ED, меньше — лучше): 0,131 (31B), 0,149 (26B A4B), 0,181 (E4B), 0,290 (E2B), при 0,365 у Gemma 3 27B
- Long context MRCR v2 8 needle 128k (среднее): 66,4% (31B), 44,1% (26B A4B), 25,4% (E4B), 19,1% (E2B), против 13,5% у Gemma 3 27B
Аудио-бенчмарки (E2B/E4B):
- CoVoST: 35,54 (E4B), 33,47 (E2B)
- FLEURS (меньше — лучше): 0,08 (E4B), 0,09 (E2B)

Новые возможности по функциям:

Встроенный режим рассуждений с управляющим токеном <|think|> и отдельным каналом мыслей
Нативная роль system в чате и поддержка системного промпта
Функциональные вызовы (function calling) для агентных сценариев
Улучшенный кодинг: рост по LiveCodeBench и Codeforces ELO
Мультимодальный чат: произвольное чередование текста и картинок в одном запросе
Оптимизация под он-девайс: E2B/E4B рассчитаны на запуск на ноутбуках и топовых смартфонах
Обработка аудио и видео: до 30 секунд аудио и до 60 секунд видео (1 кадр в секунду)

Как это работает

Архитектура и внимание

Gemma 4 использует гибридный механизм внимания:

Внутри слоёв — скользящее локальное окно (sliding window attention) на 512 токенов для E2B/E4B и 1024 токена для 31B и 26B A4B.
Параллельно — полное глобальное внимание на некоторых слоях.
Последний слой всегда глобальный, чтобы модель видела весь контекст при финальном решении.

Для длинного контекста Google DeepMind использует:

Unified K/V в глобальных слоях — общие ключи и значения для экономии памяти
Proportional RoPE (p-RoPE) — модифицированное позиционное кодирование, которое лучше масштабируется до 128K–256K токенов.

Dense vs Mixture-of-Experts

В линейке две архитектурные ветки:

Плотные модели (Dense):

E2B, E4B, 31B используют классический трансформер с одинаковым числом параметров, активных на каждом шаге.
Характеристики:
- E2B: 35 слоёв, 512-токенное окно, 128K контекста, 262K словарь, ~150M параметров в vision-энкодере, ~300M в аудио-энкодере.
- E4B: 42 слоя, 512-токенное окно, 128K контекста, тот же словарь и параметры vision/audio, что и у E2B.
- 31B: 60 слоёв, 1024-токенное окно, 256K контекста, 262K словарь, ~550M параметров vision-энкодера, без аудио-энкодера.

MoE‑модель 26B A4B:

Общих параметров — 25,2B, но активными на каждом шаге остаются только 3,8B.
30 слоёв, 1024-токенное окно, 256K контекста, 262K словарь.
8 активных экспертов из 128 + 1 общий эксперт.
Vision-энкодер примерно на 550M параметров.

Роутер внутри слоя выбирает подмножество экспертов для каждого токена. За счёт этого модель работает почти как 4B по скорости, но использует знания большого пула экспертов.

Per-Layer Embeddings (PLE) и «эффективные» параметры

В E2B и E4B Google DeepMind экономит память за счёт Per-Layer Embeddings (PLE):

Вместо увеличения числа слоёв или ширины, каждая декодерная ступень получает свой небольшой embedding-словарь для каждого токена.
Эти таблицы большие по общему числу параметров, но используются только как быстрые lookup-таблицы.
Поэтому указывается два числа: общее количество параметров (с эмбеддингами) и эффективное количество — то, что реально влияет на вычисления.

Отсюда маркировка:

E2B / E4B — «E» от effective: 2,3B и 4,5B активных параметров, при 5,1B и 8B общих.
26B A4B — «A» от active: 3,8B активных параметров при 25,2B общих.

Мультимодальные энкодеры

Все модели используют отдельные энкодеры для разных модальностей:

Vision-энкодер:
- ~150M параметров у E2B/E4B
- ~550M параметров у 31B и 26B A4B
- Поддержка переменного разрешения и соотношения сторон.
Аудио-энкодер (только E2B/E4B):
- ~300M параметров
- Ограничение: до 30 секунд аудио на запрос.

Видео модель обрабатывает как набор кадров, прогоняя их через vision-энкодер с ограничением по длине: до 60 секунд при частоте 1 кадр в секунду.

Режим «мышления» и системные промпты

Gemma 4 вводит явный режим рассуждений:

Чтобы включить его, в начале системного промпта нужно добавить токен <|think|>.
При этом модель генерирует внутренние размышления в отдельном «канале» и затем финальный ответ.
Структура вывода при включённом thinking:
```
<|channel>thought
[Internal reasoning]
<channel|>
[Final answer]
```
Если thinking отключён (без <|think|>), то для всех моделей, кроме E2B/E4B, теги канала остаются, но блок мыслей пустой.
Библиотеки вроде Transformers и llama.cpp сами управляют шаблоном чата и парсингом этих блоков.

Длинный контекст и порядок модальностей

Для длинных запросов Gemma 4 использует до 128K/256K токенов. Важно:

Для лучшего качества при мультимодальных запросах Google DeepMind рекомендует ставить изображения и/или аудио перед текстом.
Для картинок есть «визуальный бюджет токенов» — 70, 140, 280, 560 или 1120 токенов на изображение.
- Низкий бюджет: быстрее, меньше деталей — подходит для классификации, подписи картинок, видеоаналитики.
- Высокий бюджет: медленнее, но больше деталей — лучше для OCR, документов, мелкого текста.

Обучающие данные и фильтрация

Gemma 4 обучена на крупном мультимодальном датасете с отсечкой по данным январь 2025 года:

Веб-документы на 140+ языках.
Код на разных языках программирования.
Математические тексты.
Изображения и аудио.

Для очистки данных Google DeepMind применяет:

Многоступенчатую фильтрацию CSAM.
Автоматическое удаление части персональных и других чувствительных данных.
Дополнительные фильтры по качеству и безопасности контента.

Модели проходят те же внутренние проверки по безопасности, что и проприетарные Gemini: автоматические и ручные оценки на темы детской эксплуатации, опасного контента, сексуального контента, хейта и харассмента.

Что это значит для вас

Для кого подойдёт Gemma 4

Разработчики и стартапы:

Нужен открытый стек с возможностью дообучения и локального развёртывания.
Важно контролировать данные и не отправлять их в облако стороннего вендора.
Нужен мультимодальный ассистент: текст + картинки + (для E2B/E4B) аудио.

ML-инженеры и исследователи:

Нужен доступ к открытым весам и возможностям тюнинга под свои задачи.
Интересны эксперименты с длинным контекстом до 256K токенов.
Хочется играться с MoE-архитектурой без закрытых API.

Продуктовые команды:

Нужен агент, который умеет вызывать функции и инструменты (function calling) и при этом понимать картинки, документы, UI-экраны.
Важны кодинг-возможности: автодополнение, генерация, рефакторинг.

Конкретные сценарии использования

1. Он-девайс и edge‑сценарии (E2B/E4B)

Локальные ассистенты на ноутбуках и мощных смартфонах.
Приложения, которым нужна офлайн-обработка текста и картинок.
Голосовые заметки и диктовка: E2B/E4B умеют ASR и перевод речи (AST) до 30 секунд.

Где это удобно:

Транскрипция коротких аудиозаметок.
Перевод голосовых сообщений с сохранением исходного текста и перевода.
Локальные помощники для чтения сканов, PDF, интерфейсов.

Ограничения:

30 секунд аудио и 60 секунд видео — этого мало для длинных лекций или фильмов.
Для сложных задач рассуждения и кода E2B/E4B уступают 26B A4B и 31B.

2. Серверные модели и RAG/агенты (26B A4B и 31B)

Back-end для сложных ассистентов, которые:
- читают длинные документы (до 256K токенов),
- комбинируют текст и картинки,
- вызывают внешние инструменты через function calling,
- решают сложные задачи по математике, коду и логике.

Для чего стоит использовать:

RAG-системы, где нужно читать большие базы знаний или длинные PDF.
Автоматизированные агенты: планирование задач, разбор интерфейсов, вызов API.
Аналитика документов, презентаций, сканов и структурированных отчётов.

Где лучше не применять:

Если критичны только скорость и минимальные ресурсы, а не качество — 31B и 26B A4B потребуют серьёзного GPU.
Для сверхчувствительных доменов (медицина, юридическая экспертиза) всё равно нужен человек в контуре, несмотря на хорошие бенчмарки.

3. Код и разработка

По LiveCodeBench и Codeforces ELO Gemma 4 заметно сильнее Gemma 3 27B.

Практические применения:

Автодополнение кода в IDE.
Генерация тестов и документации.
Объяснение чужого кода, миграции, рефакторинг.

Рекомендации:

Для локальных инструментов под IDE — E4B как компромисс между качеством и ресурсами.
Для серверных код-ассистентов — 26B A4B или 31B.

4. Мультимодальные сценарии (vision, документы, UI)

Gemma 4 умеет:

Обнаружение объектов.
Чтение и разбор документов/PDF.
Понимание экранов и UI.
Анализ графиков и диаграмм.
OCR, включая многоязычный текст и рукопись.
Указания «по точке» (pointing).

Где это полезно:

Сервисы для чтения документов, форм и сканов.
Инструменты тестирования интерфейсов и аналитики скриншотов.
Мобильные приложения для чтения чеков, счетов, справок.

При этом нужно учитывать:

Для задач, где важны мелкие детали (мелкий текст, сложные документы), лучше поднимать визуальный бюджет токенов до 560–1120.
Это увеличит время инференса и нагрузку на GPU.

5. Аудио и перевод речи (E2B/E4B)

Модели поддерживают два основных паттерна:

ASR: транскрипция речи в исходном языке.
AST: транскрипция + перевод в целевой язык.

Ограничения:

До 30 секунд на аудиосегмент.
Для длинных записей придётся резать на куски и аккуратно собирать контекст.

Доступность и ограничения для России

Gemma 4 распространяется как открытая модель с лицензией Apache 2.0 через Hugging Face и GitHub. Весами можно пользоваться локально без привязки к облачному API.

Если доступ к Hugging Face или GitHub в вашей сети ограничен, может понадобиться VPN или зеркала. После скачивания весов модель можно запускать полностью офлайн.

Место на рынке

Gemma 4 — это открытая линейка от Google DeepMind, которая конкурирует с другими крупными открытыми моделями. В исходных данных есть подробные бенчмарки по сравнению с предыдущим поколением Gemma 3 27B, но нет прямых сравнений с GPT-4o, Claude 3.5 или Llama 3.

По доступным цифрам можно сделать несколько выводов внутри экосистемы Google DeepMind:

Gemma 4 31B и 26B A4B существенно превосходят Gemma 3 27B почти по всем бенчмаркам:
- MMLU Pro: 85,2% и 82,6% против 67,6%.
- AIME 2026: 89,2% и 88,3% против 20,8%.
- LiveCodeBench v6: 80,0% и 77,1% против 29,1%.
- Codeforces ELO: 2150 и 1718 против 110.
Vision‑бенчмарки тоже растут: MMMLU, MMMU Pro, MATH-Vision, OmniDocBench.
MoE‑модель 26B A4B даёт близкое к 31B качество при меньшем числе активных параметров (3,8B против 30,7B), что делает её интересной для тех, кто считает каждый миллисекунд и гигабайт.

По позиционированию внутри открытой экосистемы:

E2B/E4B занимают нишу легковесных мультимодальных моделей для он-девайс и edge.
26B A4B и 31B — это серверные модели «фронтирного» уровня для сложных задач рассуждения, кода и мультимодальности.

Лицензия Apache 2.0 делает Gemma 4 привлекательной для коммерческих продуктов, которым нужен предсказуемый юридический режим.

Установка

Gemma 4 работает через библиотеку Transformers от Hugging Face. Для базового текстового использования достаточно установить:

pip install -U transformers torch accelerate

Дальше можно загрузить и запустить, например, модель google/gemma-4-E4B-it:

from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E4B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False,
)

inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

processor.parse_response(response)

Чтобы включить режим рассуждений, в apply_chat_template нужно задать enable_thinking=True. Функция parse_response сама отделит мысли от финального ответа.

Как запустить: текст, аудио, картинки, видео

Текстовый чат

Пример выше уже показывает базовый текстовый сценарий. Главное — использовать AutoProcessor и AutoModelForCausalLM, а также шаблон чата apply_chat_template.

Аудио (E2B и E4B)

Для работы с аудио нужен мультимодальный класс модели и дополнительные зависимости:

pip install -U transformers torch torchvision librosa accelerate

Код для загрузки и запуска:

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-E4B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "audio",
                "audio": "https://raw.githubusercontent.com/google-gemma/cookbook/refs/heads/main/Demos/sample-data/journal1.wav",
            },
            {
                "type": "text",
                "text": (
                    "Transcribe the following speech segment in its original language. "
                    "Follow these specific instructions for formatting the answer:\n\n"
                    "* Only output the transcription, with no newlines.\n\n"
                    "* When transcribing numbers, write the digits, i.e. write 1.7 and not one "
                    "point seven, and write 3 instead of three."
                ),
            },
        ],
    }
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=512)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

processor.parse_response(response)

Картинки

Для изображений достаточно torch, torchvision и accelerate:

pip install -U transformers torch torchvision accelerate

Пример кода:

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-E4B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "url": "https://raw.githubusercontent.com/google-gemma/cookbook/refs/heads/main/Demos/sample-data/GoldenGate.png",
            },
            {"type": "text", "text": "What is shown in this image?"},
        ],
    }
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=512)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

processor.parse_response(response)

Видео

Для видео нужны и torchvision, и librosa (на случай аудио-дорожки):

pip install -U transformers torch torchvision librosa accelerate

Запуск выглядит так:

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-E4B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "video",
                "video": "https://github.com/bebechien/gemma/raw/refs/heads/main/videos/ForBiggerBlazes.mp4",
            },
            {"type": "text", "text": "Describe this video."},
        ],
    }
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=512)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

processor.parse_response(response)

Ограничение: до 60 секунд видео при обработке 1 кадра в секунду.

Практика: промпты и настройки

Режим «мышления» (Thinking Mode)

Чтобы управлять рассуждениями:

Включение: добавить токен <|think|> в начало системного промпта.
Отключение: убрать этот токен.

Когда режим включён, модель сначала выдаёт блок мыслей, затем финальный ответ. Для E2B/E4B при отключении thinking блок мыслей не заполняется, но теги могут оставаться.

При многошаговых диалогах важно:

В историю чата добавлять только финальный ответ, без внутренних мыслей.
Не подмешивать мысли модели в следующие запросы пользователя.

Порядок модальностей и бюджет токенов для картинок

Для лучшего качества мультимодальной генерации:

Сначала добавляйте изображения/аудио, затем текстовый запрос.
Подбирайте визуальный бюджет токенов под задачу:
- 70–140: быстрые задачи, классификация, подписи, видео.
- 280–560: баланс качества и скорости.
- 1120: сложные документы, мелкий текст, OCR.

Шаблоны промптов для аудио

Для ASR:

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text. Follow these specific instructions for formatting the answer: * Only output the transcription, with no newlines. * When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

Для AST (транскрипция + перевод):

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}. When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

Безопасность и этика

Gemma 4 проходит те же процедуры безопасности, что и Gemini:

Команды Google DeepMind по безопасности и ответственному ИИ оценивают модели автоматическими и ручными методами.
Модели тестируют на:
- контент, связанный с детской эксплуатацией,
- опасный контент (самоповреждение, инструкции по вреду),
- сексуально откровенный контент,
- разжигание ненависти,
- харассмент и призывы к насилию.

По внутренним метрикам Gemma 4 показывает заметный прогресс по сравнению с Gemma 3 и 3n по всем категориям безопасности, при этом число необоснованных отказов остаётся низким.

Для продакшн-продуктов всё равно стоит держать поверх Gemma 4 собственные фильтры, логирование и человеко-ориентированный контроль в критичных сценариях.