PrismML запустила 1‑bit Bonsai: 8B‑LLM весом 1,3 ГБ, которая работает на iPhone — VogueTech

Что появилось / что изменилось

PrismML выпустила 1‑bit Bonsai — языковую модель на 8,19 млрд параметров, ужатую до объёма около 1,3 ГБ. Базовая FP16‑версия требовала бы 16,38 ГБ, то есть 1‑bit Bonsai в 12,8 раза компактнее. Параметры занимают 1,28 ГБ в формате MLX 1‑bit g128, полный каталог с токенайзером и конфигами — примерно 1,30 ГБ.

Главное: модель уверенно помещается в память любого Mac на Apple Silicon и iPhone. На iPhone 17 Pro Max через MLX Swift она генерирует около 44 токенов в секунду. Для сравнения, 4‑битная версия на том же устройстве даёт 14 токенов в секунду — 1‑bit Bonsai примерно в 3,1 раза быстрее по генерации.

На Mac с чипом M4 Pro (48 ГБ) через MLX (Python) модель выдаёт 131 токен в секунду при генерации и 472 токена в секунду при обработке промпта (PP512). Для FP16‑варианта те же тесты дают 16 токенов в секунду и 434 токена в секунду. Ускорение по генерации — около 8,4 раза.

Энергопотребление тоже падает. На Mac M4 Pro через MLX средняя энергия на токен — 0,074 мВт·ч против 0,415 мВт·ч у FP16 (примерно в 5,6 раза меньше). На iPhone 17 Pro Max — около 0,068 мВт·ч на токен против 0,143 мВт·ч у 4‑битной модели (примерно в 2,1 раза лучше).

По качеству 1‑bit Bonsai набирает 70,5 балла в среднем по шести бенчмаркам (MMLU‑R, MuSR, GSM8K, HE+, IFEval, BFCL). Это сравнимо с другими 8B‑моделями в полном формате FP16, но при размере примерно в 1/14 от них.

Контекст — до 65 536 токенов. Словарь — 151 936 токенов. Лицензия — Apache 2.0. Есть две версии: MLX‑формат для Apple Silicon и GGUF Q1_0_g128 для llama.cpp.

Как это работает

PrismML использует 1‑битную квантизацию с группировкой по 128 весов (формат 1‑bit g128). Каждый вес хранится одним битом: 0 означает −scale, 1 — +scale. Для каждой группы из 128 весов модель хранит один FP16‑масштаб (scale) — в GGUF — или scale плюс bias в формате MLX.

В MLX формула такая: w = mlx_scale * bit + mlx_bias. PrismML кодирует свои веса так:

mlx_scale = 2 * original_scale
mlx_bias = −original_scale

Если bit = 0, получается −scale, если bit = 1 — +scale. За счёт этого модель не разворачивает веса обратно в FP16 при работе: MLX выполняет дешифровку «на лету» в 1‑битном формате. Это экономит память и ускоряет вычисления.

Эта схема даёт около 1,25 бита на вес в MLX (1 бит знака плюс два 16‑битных числа на 128 весов) и 1,125 бита на вес в GGUF Q1_0_g128 (1 бит знака плюс один 16‑битный масштаб на 128 весов).

Архитектура — Qwen3‑8B: 36 блоков Transformer‑декодера, GQA с 32 query‑головами и 8 KV‑головами, MLP со SwiGLU, позиционирование RoPE и нормализация RMSNorm. 1‑битная квантизация распространяется на эмбеддинги, матрицы внимания, MLP‑проекции и LM‑голову. Непосредственно с Apple‑железом модель работает через MLX (Python) и MLX Swift, для других платформ есть формат GGUF Q1_0_g128 под llama.cpp.

Что это значит для вас

1‑bit Bonsai подойдёт, если вы хотите запускать LLM локально на Mac или iPhone без облака и подписок. Модель помещается в память даже на устройствах с 8–16 ГБ RAM и даёт комфортную скорость для диалогов, кода, черновиков текстов и простых аналитических задач.

Где это полезно:

офлайн‑помощник на MacBook или iPhone: заметки, письма, резюме, генерация идей;
базовая работа с кодом: объяснение фрагментов, автодополнение, простые функции;
длинные документы: контекст до 65k токенов позволяет разбирать отчёты, спецификации, большие статьи локально;
эксперименты с MLX и Swift: если вы разрабатываете под Apple Silicon, это удобный тестовый LLM‑движок.

Где ожидания лучше снизить:

сложная математика и строгая логика: по GSM8K и MuSR 1‑bit Bonsai уступает лидерам в таблице;
задачи уровня GPT‑4o или Claude 3.5: по качеству это класс 8B‑моделей, а не топовые облачные флагманы;
тяжёлые мультимодальные сценарии: здесь только текст, без встроенной обработки изображений или аудио.

Модель доступна на Hugging Face и через репозитории PrismML. Для скачивания может понадобиться VPN, если у вас ограничен доступ к этим ресурсам. Для запуска на iOS и macOS нужен форк MLX и MLX Swift от PrismML с поддержкой 1‑битных ядер.

Рекомендуемые параметры генерации: температура 0,5–0,7, top‑k 20–40, top‑p 0,85–0,95. Базовый системный промпт можно оставить минимальным: You are a helpful assistant.

Место на рынке

PrismML напрямую сравнивает 1‑bit Bonsai с другими компактными LLM в диапазоне 6–9 млрд параметров: Qwen 3 8B, Mistral 3 8B, Llama 3.1 8B, Olmo 3 7B, LFM2 8B, GLM v6 9B и RNJ 8B.

По среднему баллу (70,5) 1‑bit Bonsai находится рядом с Olmo 3 7B (70,9) и LFM2 8B (69,6), но заметно уступает Qwen 3 8B (79,3) и RNJ 8B (73,1). При этом Qwen 3 8B и RNJ 8B занимают около 16 ГБ в FP16, тогда как 1‑bit Bonsai укладывается примерно в 1,15–1,3 ГБ в 1‑битном формате.

Llama 3.1 8B показывает 67,1 среднего балла при объёме 16 ГБ FP16, а 1‑bit Bonsai — 70,5 при объёме в районе 1,2–1,3 ГБ. GLM v6 9B набирает 65,7 балла, тоже в 16‑гигабайтном классе.

Если нужна максимальная точность и у вас есть мощный GPU или сервер, Qwen 3 8B и RNJ 8B выглядят сильнее. Если вы хотите держать LLM прямо на MacBook или iPhone и не думать о 16 ГБ видеопамяти, 1‑bit Bonsai даёт компромисс: качество уровня «средний 8B» при размере и энергопотреблении, которые подходят для мобильных устройств и ноутбуков.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также