Gemma 4 ужали до 1 ГБ: Google выкатила QAT-версии для ноутбуков и смартфонов — VogueTech

Что нового

Google продолжает прокачивать линейку Gemma 4 и делает упор на локальный запуск. За последние два месяца компания:

добавила Multi-Token Prediction (MTP), чтобы ускорить инференс;
выпустила Gemma 4 на 12B параметров — промежуточную модель между E4B и 26B MoE;
а сейчас представила новые чекпоинты Gemma 4, обученные с учётом квантизации (Quantization-Aware Training, QAT).

Главное обновление — новые QAT-чекпоинты в двух форматах:

популярный формат квантизации Q4_0 для всех моделей;
новый формат квантизации, заточенный под мобильные устройства.

Ключевая цифра: Gemma 4 E2B в мобильном формате помещается в 1 ГБ памяти. Это уже уровень, при котором модель реально запускать на массовых смартфонах и ультрабуках без дискретной видеокарты.

Google заявляет, что QAT снижает потерю качества по сравнению со стандартной постобучающей квантизацией (Post-Training Quantization, PTQ). При этом модели занимают меньше памяти и быстрее декодируют токены.

Как это работает

QAT против PTQ

Есть два подхода к сжатию языковых моделей:

PTQ (Post-Training Quantization): берём уже обученную модель и после обучения переводим веса в меньшую разрядность (например, с float16 в int4). Это просто и быстро, но качество часто падает, особенно на сложных задачах.
QAT (Quantization-Aware Training): модель с самого начала или на дообучении тренируют с «симуляцией» квантизации. Во время обучения веса и активации ведут себя так, будто уже сжаты, хотя фактически хранятся в более точном формате.

QAT делает две вещи:

Имитация квантизации во время обучения. Модель «привыкает» к шуму и погрешностям, которые появляются при переводе весов в int4 или другой компактный формат.
Оптимизация под конкретную схему квантизации. В случае Gemma 4 Google настраивает обучение под:
- Q4_0 — популярный формат для локального запуска LLM;
- новый мобильный формат, который ещё сильнее экономит память.

Результат: после реального сжатия модель теряет меньше качества, чем при классической PTQ, а иногда даже показывает лучшую точность относительно PTQ-бейзлайна.

Q4_0 и мобильный формат

Google использует одну QAT-рецептуру для разных вариантов Gemma 4:

Q4_0 — формат, который уже широко применяют в локальных LLM (в частности, в экосистеме GGUF/llama.cpp). Здесь веса ужаты примерно до 4 бит на параметр, что резко уменьшает VRAM/ОЗУ.
Мобильная схема квантизации — отдельный формат для Gemma 4 E2B и E4B, оптимизированный под:
- малый объём памяти (E2B — около 1 ГБ);
- энергоэффективность на ARM-чипах и встроенных GPU;
- устойчивость к ограничениям мобильных SoC.

Google явно перезадумала стратегию квантизации для «edge»-моделей (E2B и E4B): вместо того, чтобы просто применить общий формат, компания сделала специализированную схему именно под мобильные сценарии.

Что это значит для вас

Если вы запускаете ИИ локально

Новые QAT-чекпоинты Gemma 4 — это про то, чтобы меньше думать о железе и больше — о задачах. Практически это даёт:

Запуск на обычных ноутбуках. Q4_0-версии подойдут для ноутбуков с 8–16 ГБ RAM и/или потребительскими GPU. Не нужна профессиональная видеокарта.
Работу на смартфонах и планшетах. Gemma 4 E2B в 1 ГБ памяти — реалистичный сценарий для топовых Android-устройств и некоторых iPad через локальные рантаймы.
Меньше требований к VRAM и диску. Можно держать несколько языковых моделей на одном устройстве, не забивая весь SSD.

Для каких задач это полезно

Подходящие сценарии:

офлайн-ассистент на ноутбуке или смартфоне;
приватная обработка данных (документы, заметки, код) без отправки в облако;
встраивание LLM в приложения: заметки, IDE, менеджеры задач, мессенджеры;
edge-сценарии: устройства на производстве, ретейл, медицинское оборудование, где нет стабильного интернета.

Где могут быть ограничения:

сложные рассуждения на уровне топовых моделей вроде GPT-4 или Claude 3 Opus — Gemma 4 E2B/E4B и даже 12B/26B на это не нацелены;
длинный контекст: в тексте анонса нет акцента на расширенный контекст, поэтому для длинных юридических документов или больших кодовых баз лучше смотреть на более крупные модели в облаке;
задачи, где критична максимальная точность (финансовый анализ, медицинские заключения) — квантизация всё равно даёт небольшой компромисс между качеством и ресурсами.

Если вы делаете продукт для массовой аудитории, новые QAT-версии Gemma 4 помогают уместить LLM в мобильное приложение или десктоп-клиент без тяжёлой серверной инфраструктуры.

Доступность из России

Gemma 4 распространяет Google. Для доступа к официальным ресурсам, скачиванию чекпоинтов и документации может понадобиться VPN, в зависимости от того, как у вас открываются сервисы Google и связанные платформы.

Место на рынке

Google явно нацеливает Gemma 4 на сегмент «запускаем LLM у пользователя на устройстве». В этом поле уже есть несколько заметных направлений:

крупные облачные модели (GPT-4, Claude 3, Gemini Ultra) — максимальное качество, но только в онлайне и без локальной приватности;
средние и компактные модели, которые можно квантизировать и запускать локально (разные версии LLaMA, Mistral и т.п.).

Gemma 4 QAT-чекпоинты усиливают вторую категорию:

Q4_0-формат делает её удобной для тех же инструментов, которые уже используют локальные LLM (например, через популярные рантаймы с поддержкой Q4_0);
мобильный формат с 1 ГБ для E2B уменьшает порог входа для разработчиков мобильных приложений и edge-решений.

Прямых цифр по сравнению с GPT-4, Claude 3 или другими моделями Google в анонсе нет. Но по позиционированию это явно не «убийца облачных флагманов», а рабочая лошадка для локальных сценариев, где важнее приватность, офлайн-режим и экономия ресурсов.

Если вы выбираете между «одной мощной облачной моделью» и «несколькими локальными моделями поменьше», новые QAT-версии Gemma 4 делают второй вариант более реалистичным: меньше памяти, меньше требований к железу и лучшее качество по сравнению с обычной квантизацией после обучения.