- Дата публикации
Gemma Gem: браузерное ИИ-расширение, которое работает целиком на вашем компьютере
Что появилось / что изменилось
Gemma Gem — это расширение для Chrome, которое превращает браузер в локального ИИ‑ассистента. Главное отличие от привычных чат-ботов вроде GPT-4o или Claude 3.5 — всё работает прямо в браузере через WebGPU, без облака и без API‑ключей.
Ключевые факты:
- Используется модель Google Gemma 4 в формате ONNX (сборка onnx-community/gemma-4-E2B-it-ONNX)
- Квантование q4f16 и контекст до 128 000 токенов — можно анализировать очень длинные страницы и сложные сессии
- Модель скачивается один раз и занимает около 500 МБ на диске, дальше работает из кэша
- Никакие данные не уходят на сервер разработчика или в облако — всё инференс‑вычисление идёт локально через WebGPU
- Расширение умеет: читать содержимое страниц, кликать по элементам, заполнять формы, прокручивать страницу, выполнять JavaScript и отвечать на вопросы по текущему сайту
- Есть встроенный агентный цикл с инструментами и настройкой максимального числа итераций на один запрос
Для запуска нужен Chrome с поддержкой WebGPU и немного свободного места на диске для первой загрузки модели.
Как это работает
Gemma Gem состоит из нескольких частей, которые общаются друг с другом внутри расширения:
- Offscreen document — скрытая вкладка, где через библиотеку
@huggingface/transformersи WebGPU запускается Gemma 4. Здесь крутится основной агентный цикл: модель получает запрос, решает, какие инструменты вызвать, анализирует результаты и генерирует ответ. - Service worker — посредник между всеми частями расширения. Он маршрутизирует сообщения и отвечает за две операции:
take_screenshot(скриншот страницы) иrun_javascript(выполнение произвольного JS в контексте страницы). - Content script — код, который встраивается в текущую страницу. Он рисует кнопку‑иконку Gemma в правом нижнем углу и чат в shadow DOM, а также выполняет «физические» действия в DOM:
read_page_content— читает текст/HTML страницы или элемента по CSS‑селекторуclick_element— кликает по элементу по селекторуtype_text— печатает текст в поле ввода по селекторуscroll_page— прокручивает страницу на заданное число пикселей
Инференс модели идёт в offscreen‑документе через WebGPU, с потоковой выдачей токенов в чат. Логи с деталями — загрузка модели, токенизация, промпты, сырое поколение, вызовы инструментов — доступны через стандартные средства отладки расширений Chrome.
В настройках чата можно:
- Включить или выключить «Thinking» — нативный chain-of-thought режим Gemma 4
- Ограничить число итераций агентного цикла на запрос (Max iterations)
- Очистить контекст для текущей страницы
- Отключить расширение для конкретного домена
Что это значит для вас
Gemma Gem полезна, если вы хотите использовать ИИ прямо в браузере, но не готовы отдавать данные на внешние серверы.
Где это особенно уместно:
- Работа с чувствительными данными. Внутренние админки, корпоративные панели, финансовые отчёты, которые нельзя копировать в облачные чаты. Модель анализирует страницу локально, без передачи контента наружу.
- Автоматизация рутины в браузере. Можно просить ассистента кликать по кнопкам, заполнять формы, прокручивать страницы и запускать небольшие JS‑скрипты. Это похоже на лёгкий RPA прямо в Chrome.
- Длинные сессии и большие страницы. 128K контекста позволяют держать в памяти большую историю взаимодействия с сайтом, длинные документы и сложные интерфейсы.
- Разработка и тестирование интерфейсов. Через
run_javascriptи DOM‑инструменты ассистент может помогать исследовать структуру страницы, проверять селекторы и сценарии.
Где могут быть ограничения:
- Производительность зависит от вашего железа. Инференс идёт через WebGPU, и на слабых видеокартах или старых ноутбуках задержки будут заметнее, чем у облачных GPT‑моделей.
- Только Chrome с WebGPU. Если вы сидите в Safari или старой версии браузера, расширение не заработает.
- Нет готовых интеграций с внешними сервисами. Gemma Gem работает в границах вашего браузера и страницы, а не в экосистеме облачных API.
Если вы часто работаете с конфиденциальными данными в веб‑интерфейсах и вам нужен ассистент «на месте», Gemma Gem выглядит практичным вариантом. Если для вас важнее максимальная скорость и качество генерации текста, а приватность не критична, привычные облачные чаты могут быть комфортнее.
Место на рынке
Gemma Gem идёт по другой траектории, чем привычные ассистенты вроде GPT-4o или Claude 3.5 Sonnet. Вместо мощных облачных GPU и подписки — локальная модель Gemma 4 в браузере, 500 МБ на диске и зависимость от WebGPU.
По возможностям взаимодействия со страницей продукт ближе к «агентам в браузере», чем к классическому чату: он умеет кликать, скроллить, печатать и запускать JavaScript. Облачные ассистенты обычно требуют отдельного слоя интеграции или сторонних плагинов, чтобы делать то же самое.
По качеству генерации текста Gemma 4 в локальном запуске вряд ли конкурирует с флагманами вроде GPT-4o на сложных задачах, но здесь другая ставка: приватность, отсутствие API‑ключей и контроль над данными. Контекст в 128K токенов и работа прямо в браузере делают Gemma Gem интересным вариантом для тех, кто строит рабочий процесс вокруг Chrome и не хочет связываться с внешними ИИ‑сервисами.