Дата публикации
ai_products

Google представила семейство открытых моделей Gemma 4: от Android до рабочих станций

Что появилось / что изменилось

Google выпустила новое семейство открытых моделей Gemma 4. Главный упор — не на размере в параметрах, а на том, чтобы всё реально работало на «железе»: от миллиардов Android‑устройств до рабочих станций с GPU.

Ключевые новшества:

  • Форм‑факторы для разного железа. Линейка включает edge‑модели E2B и E4B для устройств на границе (смартфоны, компактные ПК) и более крупные варианты на 26B и 31B параметр.
  • Длинный контекст. Edge‑версии (E2B/E4B) получают контекстное окно на 128K токенов, старшие модели — до 256K токенов. Можно скормить репозиторий или длинный документ одним запросом.
  • Мультимодальность по умолчанию. Все версии Gemma 4 умеют работать с изображениями и видео с разным разрешением, включая OCR и понимание графиков и диаграмм.
  • Аудио на краю. Модели E2B и E4B принимают аудио напрямую — для распознавания речи и базового понимания сказанного.
  • 140+ языков. Gemma 4 обучили сразу более чем на 140 языках, так что многоязычные приложения не требуют сложной надстройки.
  • Функции для агентов. Встроенная поддержка function calling, структурированного JSON‑вывода и системных инструкций. Это упрощает сборку агентов, которые вызывают API и выполняют цепочки действий.
  • Локальная разработка кода. Gemma 4 умеет генерировать качественный код офлайн и превращать рабочую станцию в локального AI‑ассистента для разработки.
  • 26B и 31B для мощных машин. Весы в формате bfloat16 помещаются на одну NVIDIA H100 80 ГБ. Для потребительских GPU Google предлагает квантизованные варианты.
  • 26B Mixture of Experts. MoE‑модель активирует во время инференса только 3,8 млрд параметров из общего числа, чтобы выдавать много токенов в секунду с меньшей задержкой.
  • 31B Dense. Плотная модель, заточенная под максимальное качество и последующую донастройку под свои задачи.

Google уже показывает примеры дообучения: INSAIT на базе Gemma сделала болгарскую языковую модель BgGPT, а совместный проект с Йельским университетом — Cell2Sentence‑Scale — помогает искать новые схемы терапии рака.

Как это работает

Gemma 4 — это семейство открытых моделей, где Google сознательно разнесла задачи по «классам железа».

На краю (E2B/E4B) модели оптимизировали под:

  • низкую задержку — быстрый отклик на мобильных и встраиваемых устройствах;
  • мультимодальность в онлайне — видео, картинки и (для E2B/E4B) аудио без обязательного похода в облако;
  • интеграцию в экосистему Android и локальные приложения.

Старшие версии на 26B и 31B параметров рассчитаны на:

  • запуск в bfloat16 на одной GPU уровня NVIDIA H100 80 ГБ;
  • локальный запуск квантизованных версий на потребительских GPU в десктопах и ноутбуках;
  • дообучение под конкретные доменные задачи — от кода до биоинформатики.

MoE‑вариант на 26B использует архитектуру Mixture of Experts. На каждом шаге он активирует только 3,8 млрд параметров, а не все слои сразу. За счёт этого снижается нагрузка на память и ускоряется генерация текста.

Плотная 31B Dense не экономит на активных параметрах и нацелена на более высокое качество вывода и лучшую базу для fine‑tuning.

Встроенный function calling и системные инструкции позволяют Gemma 4 возвращать не просто текст, а структурированные ответы в JSON, а также вызывать внешние функции. Это основа для агентов, которые могут, например, читать документы, вызывать API сервиса и возвращать уже готовый результат в нужном формате.

Что это значит для вас

Если вы:

  • разработчик под Android или встраиваемые устройства, Gemma 4 E2B/E4B дают шанс встроить локальный ассистент прямо в приложение: распознавать речь, читать интерфейс глазами камеры, разбирать графики и таблицы. Плюс — длинный контекст 128K для работы с большими файлами локально.
  • инженер или исследователь с доступом к GPU, старшие модели 26B/31B подойдут для:
    • локального AI‑ассистента в IDE;
    • генерации и рефакторинга кода без слива репозитория в облако;
    • дообучения под узкие домены: медицина, юриспруденция, финансы.
  • делаете многоязычный продукт, поддержка 140+ языков снижает порог входа. Можно строить чат‑боты и ассистентов для глобальной аудитории, не ограничиваясь английским.

Где Gemma 4 особенно полезна:

  • локальные решения, где нельзя или не хочется отправлять данные в облако;
  • агентные сценарии: боты, которые ходят в API, собирают и агрегируют данные, работают с файлами и репозиториями;
  • приложения, которые совмещают текст, код, картинки, видео и (на краю) аудио.

Где лучше смотреть в сторону других инструментов:

  • если у вас нет доступа ни к GPU, ни к достаточно мощному CPU, запуск даже квантизованных версий может быть неудобным;
  • если нужен строго облачный сервис «из коробки» с готовым UI и биллингом, придётся дополнять Gemma 4 сторонней инфраструктурой.

Gemma 4 распространяется как открытые веса, так что для развёртывания вам понадобится собственная инфраструктура или сторонний провайдер, который уже интегрировал эти модели. В России это может означать необходимость VPN или обходных путей для доступа к исходникам и облачным сервисам Google.

Место на рынке

Gemma 4 — это попытка Google закрыть сразу два сегмента: мощные локальные модели и компактные edge‑решения.

По ключевым параметрам из релиза:

  • Контекст: до 256K токенов у старших моделей и 128K у edge‑версий. Это ставит Gemma 4 в одну линию с другими крупными LLM, которые уже умеют работать с длинными документами и репозиториями.
  • Железо: акцент на том, что bfloat16‑веса 26B/31B помещаются на одну NVIDIA H100 80 ГБ, а квантизованные версии — на потребительские GPU. Это делает Gemma 4 конкурентом других открытых моделей, которые тоже нацелены на локальный запуск.
  • Производительность MoE: активация только 3,8 млрд параметров в 26B MoE даёт преимущество по скорости генерации токенов на том же железе по сравнению с плотными моделями такого же размера.
  • Мультимодальность и аудио на краю: поддержка видео, изображений и аудио в E2B/E4B делает Gemma 4 прямым соперником других мультимодальных открытых моделей, которые пока чаще фокусируются либо на тексте, либо на изображениях.

Google явно нацеливает Gemma 4 на разработчиков, которым важны открытые веса, локальный запуск и возможность тонкой донастройки под свои задачи. Для массового пользователя это не готовый продукт, а строительный блок, из которого уже можно собрать ассистента, код‑помощника или аналитический инструмент под конкретный сценарий.


Читайте также

Google представила семейство открытых моделей Gemma 4: от Android до рабочих станций — VogueTech | VogueTech