Google представила семейство открытых моделей Gemma 4: от Android до рабочих станций — VogueTech

Что появилось / что изменилось

Google выпустила новое семейство открытых моделей Gemma 4. Главный упор — не на размере в параметрах, а на том, чтобы всё реально работало на «железе»: от миллиардов Android‑устройств до рабочих станций с GPU.

Ключевые новшества:

Форм‑факторы для разного железа. Линейка включает edge‑модели E2B и E4B для устройств на границе (смартфоны, компактные ПК) и более крупные варианты на 26B и 31B параметр.
Длинный контекст. Edge‑версии (E2B/E4B) получают контекстное окно на 128K токенов, старшие модели — до 256K токенов. Можно скормить репозиторий или длинный документ одним запросом.
Мультимодальность по умолчанию. Все версии Gemma 4 умеют работать с изображениями и видео с разным разрешением, включая OCR и понимание графиков и диаграмм.
Аудио на краю. Модели E2B и E4B принимают аудио напрямую — для распознавания речи и базового понимания сказанного.
140+ языков. Gemma 4 обучили сразу более чем на 140 языках, так что многоязычные приложения не требуют сложной надстройки.
Функции для агентов. Встроенная поддержка function calling, структурированного JSON‑вывода и системных инструкций. Это упрощает сборку агентов, которые вызывают API и выполняют цепочки действий.
Локальная разработка кода. Gemma 4 умеет генерировать качественный код офлайн и превращать рабочую станцию в локального AI‑ассистента для разработки.
26B и 31B для мощных машин. Весы в формате bfloat16 помещаются на одну NVIDIA H100 80 ГБ. Для потребительских GPU Google предлагает квантизованные варианты.
26B Mixture of Experts. MoE‑модель активирует во время инференса только 3,8 млрд параметров из общего числа, чтобы выдавать много токенов в секунду с меньшей задержкой.
31B Dense. Плотная модель, заточенная под максимальное качество и последующую донастройку под свои задачи.

Google уже показывает примеры дообучения: INSAIT на базе Gemma сделала болгарскую языковую модель BgGPT, а совместный проект с Йельским университетом — Cell2Sentence‑Scale — помогает искать новые схемы терапии рака.

Как это работает

Gemma 4 — это семейство открытых моделей, где Google сознательно разнесла задачи по «классам железа».

На краю (E2B/E4B) модели оптимизировали под:

низкую задержку — быстрый отклик на мобильных и встраиваемых устройствах;
мультимодальность в онлайне — видео, картинки и (для E2B/E4B) аудио без обязательного похода в облако;
интеграцию в экосистему Android и локальные приложения.

Старшие версии на 26B и 31B параметров рассчитаны на:

запуск в bfloat16 на одной GPU уровня NVIDIA H100 80 ГБ;
локальный запуск квантизованных версий на потребительских GPU в десктопах и ноутбуках;
дообучение под конкретные доменные задачи — от кода до биоинформатики.

MoE‑вариант на 26B использует архитектуру Mixture of Experts. На каждом шаге он активирует только 3,8 млрд параметров, а не все слои сразу. За счёт этого снижается нагрузка на память и ускоряется генерация текста.

Плотная 31B Dense не экономит на активных параметрах и нацелена на более высокое качество вывода и лучшую базу для fine‑tuning.

Встроенный function calling и системные инструкции позволяют Gemma 4 возвращать не просто текст, а структурированные ответы в JSON, а также вызывать внешние функции. Это основа для агентов, которые могут, например, читать документы, вызывать API сервиса и возвращать уже готовый результат в нужном формате.

Что это значит для вас

Если вы:

разработчик под Android или встраиваемые устройства, Gemma 4 E2B/E4B дают шанс встроить локальный ассистент прямо в приложение: распознавать речь, читать интерфейс глазами камеры, разбирать графики и таблицы. Плюс — длинный контекст 128K для работы с большими файлами локально.
инженер или исследователь с доступом к GPU, старшие модели 26B/31B подойдут для:
- локального AI‑ассистента в IDE;
- генерации и рефакторинга кода без слива репозитория в облако;
- дообучения под узкие домены: медицина, юриспруденция, финансы.
делаете многоязычный продукт, поддержка 140+ языков снижает порог входа. Можно строить чат‑боты и ассистентов для глобальной аудитории, не ограничиваясь английским.

Где Gemma 4 особенно полезна:

локальные решения, где нельзя или не хочется отправлять данные в облако;
агентные сценарии: боты, которые ходят в API, собирают и агрегируют данные, работают с файлами и репозиториями;
приложения, которые совмещают текст, код, картинки, видео и (на краю) аудио.

Где лучше смотреть в сторону других инструментов:

если у вас нет доступа ни к GPU, ни к достаточно мощному CPU, запуск даже квантизованных версий может быть неудобным;
если нужен строго облачный сервис «из коробки» с готовым UI и биллингом, придётся дополнять Gemma 4 сторонней инфраструктурой.

Gemma 4 распространяется как открытые веса, так что для развёртывания вам понадобится собственная инфраструктура или сторонний провайдер, который уже интегрировал эти модели. В России это может означать необходимость VPN или обходных путей для доступа к исходникам и облачным сервисам Google.

Место на рынке

Gemma 4 — это попытка Google закрыть сразу два сегмента: мощные локальные модели и компактные edge‑решения.

По ключевым параметрам из релиза:

Контекст: до 256K токенов у старших моделей и 128K у edge‑версий. Это ставит Gemma 4 в одну линию с другими крупными LLM, которые уже умеют работать с длинными документами и репозиториями.
Железо: акцент на том, что bfloat16‑веса 26B/31B помещаются на одну NVIDIA H100 80 ГБ, а квантизованные версии — на потребительские GPU. Это делает Gemma 4 конкурентом других открытых моделей, которые тоже нацелены на локальный запуск.
Производительность MoE: активация только 3,8 млрд параметров в 26B MoE даёт преимущество по скорости генерации токенов на том же железе по сравнению с плотными моделями такого же размера.
Мультимодальность и аудио на краю: поддержка видео, изображений и аудио в E2B/E4B делает Gemma 4 прямым соперником других мультимодальных открытых моделей, которые пока чаще фокусируются либо на тексте, либо на изображениях.

Google явно нацеливает Gemma 4 на разработчиков, которым важны открытые веса, локальный запуск и возможность тонкой донастройки под свои задачи. Для массового пользователя это не готовый продукт, а строительный блок, из которого уже можно собрать ассистента, код‑помощника или аналитический инструмент под конкретный сценарий.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также