Gemma Gem: браузерное ИИ-расширение, которое работает целиком на вашем компьютере — VogueTech

Что появилось / что изменилось

Gemma Gem — это расширение для Chrome, которое превращает браузер в локального ИИ‑ассистента. Главное отличие от привычных чат-ботов вроде GPT-4o или Claude 3.5 — всё работает прямо в браузере через WebGPU, без облака и без API‑ключей.

Ключевые факты:

Используется модель Google Gemma 4 в формате ONNX (сборка onnx-community/gemma-4-E2B-it-ONNX)
Квантование q4f16 и контекст до 128 000 токенов — можно анализировать очень длинные страницы и сложные сессии
Модель скачивается один раз и занимает около 500 МБ на диске, дальше работает из кэша
Никакие данные не уходят на сервер разработчика или в облако — всё инференс‑вычисление идёт локально через WebGPU
Расширение умеет: читать содержимое страниц, кликать по элементам, заполнять формы, прокручивать страницу, выполнять JavaScript и отвечать на вопросы по текущему сайту
Есть встроенный агентный цикл с инструментами и настройкой максимального числа итераций на один запрос

Для запуска нужен Chrome с поддержкой WebGPU и немного свободного места на диске для первой загрузки модели.

Как это работает

Gemma Gem состоит из нескольких частей, которые общаются друг с другом внутри расширения:

Offscreen document — скрытая вкладка, где через библиотеку @huggingface/transformers и WebGPU запускается Gemma 4. Здесь крутится основной агентный цикл: модель получает запрос, решает, какие инструменты вызвать, анализирует результаты и генерирует ответ.
Service worker — посредник между всеми частями расширения. Он маршрутизирует сообщения и отвечает за две операции: take_screenshot (скриншот страницы) и run_javascript (выполнение произвольного JS в контексте страницы).
Content script — код, который встраивается в текущую страницу. Он рисует кнопку‑иконку Gemma в правом нижнем углу и чат в shadow DOM, а также выполняет «физические» действия в DOM:
- read_page_content — читает текст/HTML страницы или элемента по CSS‑селектору
- click_element — кликает по элементу по селектору
- type_text — печатает текст в поле ввода по селектору
- scroll_page — прокручивает страницу на заданное число пикселей

Инференс модели идёт в offscreen‑документе через WebGPU, с потоковой выдачей токенов в чат. Логи с деталями — загрузка модели, токенизация, промпты, сырое поколение, вызовы инструментов — доступны через стандартные средства отладки расширений Chrome.

В настройках чата можно:

Включить или выключить «Thinking» — нативный chain-of-thought режим Gemma 4
Ограничить число итераций агентного цикла на запрос (Max iterations)
Очистить контекст для текущей страницы
Отключить расширение для конкретного домена

Что это значит для вас

Gemma Gem полезна, если вы хотите использовать ИИ прямо в браузере, но не готовы отдавать данные на внешние серверы.

Где это особенно уместно:

Работа с чувствительными данными. Внутренние админки, корпоративные панели, финансовые отчёты, которые нельзя копировать в облачные чаты. Модель анализирует страницу локально, без передачи контента наружу.
Автоматизация рутины в браузере. Можно просить ассистента кликать по кнопкам, заполнять формы, прокручивать страницы и запускать небольшие JS‑скрипты. Это похоже на лёгкий RPA прямо в Chrome.
Длинные сессии и большие страницы. 128K контекста позволяют держать в памяти большую историю взаимодействия с сайтом, длинные документы и сложные интерфейсы.
Разработка и тестирование интерфейсов. Через run_javascript и DOM‑инструменты ассистент может помогать исследовать структуру страницы, проверять селекторы и сценарии.

Где могут быть ограничения:

Производительность зависит от вашего железа. Инференс идёт через WebGPU, и на слабых видеокартах или старых ноутбуках задержки будут заметнее, чем у облачных GPT‑моделей.
Только Chrome с WebGPU. Если вы сидите в Safari или старой версии браузера, расширение не заработает.
Нет готовых интеграций с внешними сервисами. Gemma Gem работает в границах вашего браузера и страницы, а не в экосистеме облачных API.

Если вы часто работаете с конфиденциальными данными в веб‑интерфейсах и вам нужен ассистент «на месте», Gemma Gem выглядит практичным вариантом. Если для вас важнее максимальная скорость и качество генерации текста, а приватность не критична, привычные облачные чаты могут быть комфортнее.

Место на рынке

Gemma Gem идёт по другой траектории, чем привычные ассистенты вроде GPT-4o или Claude 3.5 Sonnet. Вместо мощных облачных GPU и подписки — локальная модель Gemma 4 в браузере, 500 МБ на диске и зависимость от WebGPU.

По возможностям взаимодействия со страницей продукт ближе к «агентам в браузере», чем к классическому чату: он умеет кликать, скроллить, печатать и запускать JavaScript. Облачные ассистенты обычно требуют отдельного слоя интеграции или сторонних плагинов, чтобы делать то же самое.

По качеству генерации текста Gemma 4 в локальном запуске вряд ли конкурирует с флагманами вроде GPT-4o на сложных задачах, но здесь другая ставка: приватность, отсутствие API‑ключей и контроль над данными. Контекст в 128K токенов и работа прямо в браузере делают Gemma Gem интересным вариантом для тех, кто строит рабочий процесс вокруг Chrome и не хочет связываться с внешними ИИ‑сервисами.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также