- Дата публикации
Google представила семейство открытых моделей Gemma 4: от Android до рабочих станций
Что появилось / что изменилось
Google выпустила новое семейство открытых моделей Gemma 4. Главный упор — не на размере в параметрах, а на том, чтобы всё реально работало на «железе»: от миллиардов Android‑устройств до рабочих станций с GPU.
Ключевые новшества:
- Форм‑факторы для разного железа. Линейка включает edge‑модели E2B и E4B для устройств на границе (смартфоны, компактные ПК) и более крупные варианты на 26B и 31B параметр.
- Длинный контекст. Edge‑версии (E2B/E4B) получают контекстное окно на 128K токенов, старшие модели — до 256K токенов. Можно скормить репозиторий или длинный документ одним запросом.
- Мультимодальность по умолчанию. Все версии Gemma 4 умеют работать с изображениями и видео с разным разрешением, включая OCR и понимание графиков и диаграмм.
- Аудио на краю. Модели E2B и E4B принимают аудио напрямую — для распознавания речи и базового понимания сказанного.
- 140+ языков. Gemma 4 обучили сразу более чем на 140 языках, так что многоязычные приложения не требуют сложной надстройки.
- Функции для агентов. Встроенная поддержка function calling, структурированного JSON‑вывода и системных инструкций. Это упрощает сборку агентов, которые вызывают API и выполняют цепочки действий.
- Локальная разработка кода. Gemma 4 умеет генерировать качественный код офлайн и превращать рабочую станцию в локального AI‑ассистента для разработки.
- 26B и 31B для мощных машин. Весы в формате bfloat16 помещаются на одну NVIDIA H100 80 ГБ. Для потребительских GPU Google предлагает квантизованные варианты.
- 26B Mixture of Experts. MoE‑модель активирует во время инференса только 3,8 млрд параметров из общего числа, чтобы выдавать много токенов в секунду с меньшей задержкой.
- 31B Dense. Плотная модель, заточенная под максимальное качество и последующую донастройку под свои задачи.
Google уже показывает примеры дообучения: INSAIT на базе Gemma сделала болгарскую языковую модель BgGPT, а совместный проект с Йельским университетом — Cell2Sentence‑Scale — помогает искать новые схемы терапии рака.
Как это работает
Gemma 4 — это семейство открытых моделей, где Google сознательно разнесла задачи по «классам железа».
На краю (E2B/E4B) модели оптимизировали под:
- низкую задержку — быстрый отклик на мобильных и встраиваемых устройствах;
- мультимодальность в онлайне — видео, картинки и (для E2B/E4B) аудио без обязательного похода в облако;
- интеграцию в экосистему Android и локальные приложения.
Старшие версии на 26B и 31B параметров рассчитаны на:
- запуск в bfloat16 на одной GPU уровня NVIDIA H100 80 ГБ;
- локальный запуск квантизованных версий на потребительских GPU в десктопах и ноутбуках;
- дообучение под конкретные доменные задачи — от кода до биоинформатики.
MoE‑вариант на 26B использует архитектуру Mixture of Experts. На каждом шаге он активирует только 3,8 млрд параметров, а не все слои сразу. За счёт этого снижается нагрузка на память и ускоряется генерация текста.
Плотная 31B Dense не экономит на активных параметрах и нацелена на более высокое качество вывода и лучшую базу для fine‑tuning.
Встроенный function calling и системные инструкции позволяют Gemma 4 возвращать не просто текст, а структурированные ответы в JSON, а также вызывать внешние функции. Это основа для агентов, которые могут, например, читать документы, вызывать API сервиса и возвращать уже готовый результат в нужном формате.
Что это значит для вас
Если вы:
- разработчик под Android или встраиваемые устройства, Gemma 4 E2B/E4B дают шанс встроить локальный ассистент прямо в приложение: распознавать речь, читать интерфейс глазами камеры, разбирать графики и таблицы. Плюс — длинный контекст 128K для работы с большими файлами локально.
- инженер или исследователь с доступом к GPU, старшие модели 26B/31B подойдут для:
- локального AI‑ассистента в IDE;
- генерации и рефакторинга кода без слива репозитория в облако;
- дообучения под узкие домены: медицина, юриспруденция, финансы.
- делаете многоязычный продукт, поддержка 140+ языков снижает порог входа. Можно строить чат‑боты и ассистентов для глобальной аудитории, не ограничиваясь английским.
Где Gemma 4 особенно полезна:
- локальные решения, где нельзя или не хочется отправлять данные в облако;
- агентные сценарии: боты, которые ходят в API, собирают и агрегируют данные, работают с файлами и репозиториями;
- приложения, которые совмещают текст, код, картинки, видео и (на краю) аудио.
Где лучше смотреть в сторону других инструментов:
- если у вас нет доступа ни к GPU, ни к достаточно мощному CPU, запуск даже квантизованных версий может быть неудобным;
- если нужен строго облачный сервис «из коробки» с готовым UI и биллингом, придётся дополнять Gemma 4 сторонней инфраструктурой.
Gemma 4 распространяется как открытые веса, так что для развёртывания вам понадобится собственная инфраструктура или сторонний провайдер, который уже интегрировал эти модели. В России это может означать необходимость VPN или обходных путей для доступа к исходникам и облачным сервисам Google.
Место на рынке
Gemma 4 — это попытка Google закрыть сразу два сегмента: мощные локальные модели и компактные edge‑решения.
По ключевым параметрам из релиза:
- Контекст: до 256K токенов у старших моделей и 128K у edge‑версий. Это ставит Gemma 4 в одну линию с другими крупными LLM, которые уже умеют работать с длинными документами и репозиториями.
- Железо: акцент на том, что bfloat16‑веса 26B/31B помещаются на одну NVIDIA H100 80 ГБ, а квантизованные версии — на потребительские GPU. Это делает Gemma 4 конкурентом других открытых моделей, которые тоже нацелены на локальный запуск.
- Производительность MoE: активация только 3,8 млрд параметров в 26B MoE даёт преимущество по скорости генерации токенов на том же железе по сравнению с плотными моделями такого же размера.
- Мультимодальность и аудио на краю: поддержка видео, изображений и аудио в E2B/E4B делает Gemma 4 прямым соперником других мультимодальных открытых моделей, которые пока чаще фокусируются либо на тексте, либо на изображениях.
Google явно нацеливает Gemma 4 на разработчиков, которым важны открытые веса, локальный запуск и возможность тонкой донастройки под свои задачи. Для массового пользователя это не готовый продукт, а строительный блок, из которого уже можно собрать ассистента, код‑помощника или аналитический инструмент под конкретный сценарий.