- Дата публикации
Gemma 4 ужали до 1 ГБ: Google выкатила QAT-версии для ноутбуков и смартфонов
Что нового
Google продолжает прокачивать линейку Gemma 4 и делает упор на локальный запуск. За последние два месяца компания:
- добавила Multi-Token Prediction (MTP), чтобы ускорить инференс;
- выпустила Gemma 4 на 12B параметров — промежуточную модель между E4B и 26B MoE;
- а сейчас представила новые чекпоинты Gemma 4, обученные с учётом квантизации (Quantization-Aware Training, QAT).
Главное обновление — новые QAT-чекпоинты в двух форматах:
- популярный формат квантизации Q4_0 для всех моделей;
- новый формат квантизации, заточенный под мобильные устройства.
Ключевая цифра: Gemma 4 E2B в мобильном формате помещается в 1 ГБ памяти. Это уже уровень, при котором модель реально запускать на массовых смартфонах и ультрабуках без дискретной видеокарты.
Google заявляет, что QAT снижает потерю качества по сравнению со стандартной постобучающей квантизацией (Post-Training Quantization, PTQ). При этом модели занимают меньше памяти и быстрее декодируют токены.
Как это работает
QAT против PTQ
Есть два подхода к сжатию языковых моделей:
- PTQ (Post-Training Quantization): берём уже обученную модель и после обучения переводим веса в меньшую разрядность (например, с float16 в int4). Это просто и быстро, но качество часто падает, особенно на сложных задачах.
- QAT (Quantization-Aware Training): модель с самого начала или на дообучении тренируют с «симуляцией» квантизации. Во время обучения веса и активации ведут себя так, будто уже сжаты, хотя фактически хранятся в более точном формате.
QAT делает две вещи:
- Имитация квантизации во время обучения. Модель «привыкает» к шуму и погрешностям, которые появляются при переводе весов в int4 или другой компактный формат.
- Оптимизация под конкретную схему квантизации. В случае Gemma 4 Google настраивает обучение под:
- Q4_0 — популярный формат для локального запуска LLM;
- новый мобильный формат, который ещё сильнее экономит память.
Результат: после реального сжатия модель теряет меньше качества, чем при классической PTQ, а иногда даже показывает лучшую точность относительно PTQ-бейзлайна.
Q4_0 и мобильный формат
Google использует одну QAT-рецептуру для разных вариантов Gemma 4:
- Q4_0 — формат, который уже широко применяют в локальных LLM (в частности, в экосистеме GGUF/llama.cpp). Здесь веса ужаты примерно до 4 бит на параметр, что резко уменьшает VRAM/ОЗУ.
- Мобильная схема квантизации — отдельный формат для Gemma 4 E2B и E4B, оптимизированный под:
- малый объём памяти (E2B — около 1 ГБ);
- энергоэффективность на ARM-чипах и встроенных GPU;
- устойчивость к ограничениям мобильных SoC.
Google явно перезадумала стратегию квантизации для «edge»-моделей (E2B и E4B): вместо того, чтобы просто применить общий формат, компания сделала специализированную схему именно под мобильные сценарии.
Что это значит для вас
Если вы запускаете ИИ локально
Новые QAT-чекпоинты Gemma 4 — это про то, чтобы меньше думать о железе и больше — о задачах. Практически это даёт:
- Запуск на обычных ноутбуках. Q4_0-версии подойдут для ноутбуков с 8–16 ГБ RAM и/или потребительскими GPU. Не нужна профессиональная видеокарта.
- Работу на смартфонах и планшетах. Gemma 4 E2B в 1 ГБ памяти — реалистичный сценарий для топовых Android-устройств и некоторых iPad через локальные рантаймы.
- Меньше требований к VRAM и диску. Можно держать несколько языковых моделей на одном устройстве, не забивая весь SSD.
Для каких задач это полезно
Подходящие сценарии:
- офлайн-ассистент на ноутбуке или смартфоне;
- приватная обработка данных (документы, заметки, код) без отправки в облако;
- встраивание LLM в приложения: заметки, IDE, менеджеры задач, мессенджеры;
- edge-сценарии: устройства на производстве, ретейл, медицинское оборудование, где нет стабильного интернета.
Где могут быть ограничения:
- сложные рассуждения на уровне топовых моделей вроде GPT-4 или Claude 3 Opus — Gemma 4 E2B/E4B и даже 12B/26B на это не нацелены;
- длинный контекст: в тексте анонса нет акцента на расширенный контекст, поэтому для длинных юридических документов или больших кодовых баз лучше смотреть на более крупные модели в облаке;
- задачи, где критична максимальная точность (финансовый анализ, медицинские заключения) — квантизация всё равно даёт небольшой компромисс между качеством и ресурсами.
Если вы делаете продукт для массовой аудитории, новые QAT-версии Gemma 4 помогают уместить LLM в мобильное приложение или десктоп-клиент без тяжёлой серверной инфраструктуры.
Доступность из России
Gemma 4 распространяет Google. Для доступа к официальным ресурсам, скачиванию чекпоинтов и документации может понадобиться VPN, в зависимости от того, как у вас открываются сервисы Google и связанные платформы.
Место на рынке
Google явно нацеливает Gemma 4 на сегмент «запускаем LLM у пользователя на устройстве». В этом поле уже есть несколько заметных направлений:
- крупные облачные модели (GPT-4, Claude 3, Gemini Ultra) — максимальное качество, но только в онлайне и без локальной приватности;
- средние и компактные модели, которые можно квантизировать и запускать локально (разные версии LLaMA, Mistral и т.п.).
Gemma 4 QAT-чекпоинты усиливают вторую категорию:
- Q4_0-формат делает её удобной для тех же инструментов, которые уже используют локальные LLM (например, через популярные рантаймы с поддержкой Q4_0);
- мобильный формат с 1 ГБ для E2B уменьшает порог входа для разработчиков мобильных приложений и edge-решений.
Прямых цифр по сравнению с GPT-4, Claude 3 или другими моделями Google в анонсе нет. Но по позиционированию это явно не «убийца облачных флагманов», а рабочая лошадка для локальных сценариев, где важнее приватность, офлайн-режим и экономия ресурсов.
Если вы выбираете между «одной мощной облачной моделью» и «несколькими локальными моделями поменьше», новые QAT-версии Gemma 4 делают второй вариант более реалистичным: меньше памяти, меньше требований к железу и лучшее качество по сравнению с обычной квантизацией после обучения.