- Дата публикации
Какой квант Qwen3.5-9B GGUF брать: разбор 46 вариантов по цифрам
Что появилось / что изменилось
Сообщество вокруг Qwen3.5-9B разобрало сразу 46 вариантов квантов GGUF и сравнило их не «на глаз», а по двум метрикам:
- KLD (KL Divergence) — насколько квантованный вариант отходит от исходной BF16-версии по распределению вероятностей токенов. Меньше — ближе к оригиналу.
- PPL (perplexity) — средняя «растерянность» модели при предсказании следующего токена. Меньше — модель увереннее.
Все сравнения идут относительно BF16-бейзлайна Qwen3.5-9B. Цель — понять, какой файл скачивать под свои GPU/VRAM, а не брать первый попавшийся.
Ключевые цифры:
- Самый точный квант по KLD —
Q8_0: 8,873 GiB, PPL 7,3057, KLD 0,000814. - Почти рядом —
unsloth/UD-Q8_K_XL: 12,083 GiB, PPL 7,3041, KLD 0,000895. - Лучшие среди 6-битных:
unsloth/UD-Q6_K_XL: 8,156 GiB, PPL 7,2948, KLD 0,001095.bartowski/Q6_K_L: 7,622 GiB, PPL 7,3000, KLD 0,001257.
- Оптимальные 5-битные:
bartowski/Q5_K_L: 6,848 GiB, PPL 7,3143, KLD 0,003233.unsloth/UD-Q5_K_XL: 6,281 GiB, PPL 7,3093, KLD 0,003500.
- Сегмент Q4 (4 бита):
bartowski/Q4_K_L: 6,166 GiB, KLD 0,007917.unsloth/UD-Q4_K_XL: 5,556 GiB, KLD 0,008128.bartowski/Q4_K_M: 5,463 GiB, KLD 0,008696.bartowski/Q4_K_S: 5,18 GiB, KLD 0,010793.- Лучший «компактный» 4-битный по верности —
bartowski/IQ4_XS: 4,925 GiB, KLD 0,012662.
- Разница рецептов Q4_K_M:
bartowski/Q4_K_M: KLD 0,008696.unsloth/Q4_K_M: KLD 0,022202.lmstudio/Q4_K_M: KLD 0,035349.
Отдельно посчитали “Efficiency Score” — расстояние до «идеала» по формуле:
√(Normalized Size² + Normalized KLD²)
Меньше — лучше баланс между размером и точностью.
Топ по эффективности:
unsloth/UD-Q3_K_XL: 4,707 GiB, KLD 0,025065, Eff. 0,210935.bartowski/Q3_K_M: 4,54 GiB, KLD 0,033974, Eff. 0,212071.bartowski/IQ3_M: 4,353 GiB, KLD 0,040563, Eff. 0,212186.bartowski/IQ4_XS: 4,925 GiB, KLD 0,012662, Eff. 0,218957.
Для визуалов есть токен‑уровневая карта расхождений по четырём доменам — код, математика, английский, французский — для всех 46 квантов.
Как это работает
Автор использует BF16‑версию Qwen3.5-9B как референс. Для каждого кванта он прогоняет один и тот же датасет и сравнивает распределения вероятностей токенов.
- KLD показывает, насколько «смещается» распределение: квант предсказывает те же токены, но уже с другими вероятностями. Это ближе к измерению «верности характера» модели.
- PPL строится из кросс‑энтропии по датасету и отражает суммарную ошибку предсказаний.
Обе метрики связаны, но PPL шумнее: на конкретном датасете модель может случайно показать лучшее значение. KLD стабильнее, потому что считается как отклонение от BF16, а не от ответов в данных.
Отдельный инструмент на Hugging Face строит тепловые карты по токенам: видно, в каких типах текста конкретный квант сильнее уходит от BF16 — например, в коде или в математике.
Что это значит для вас
Если вы поднимаете Qwen3.5-9B локально, эти цифры помогают не тратить VRAM и время на угадывание.
Практические сценарии:
-
Максимальная верность BF16, VRAM не проблема
- Берите
Q8_0(8,873 GiB, KLD 0,000814) илиunsloth/UD-Q8_K_XL(12,083 GiB, KLD 0,000895). - Подходит для тонкой генерации текста, сложного кода, чувствительных задач, где важны нюансы.
- Берите
-
Нужен баланс точности и размера (6–5 бит)
- Хорошие варианты 6 бит:
unsloth/UD-Q6_K_XL(KLD 0,001095),bartowski/Q6_K_L(0,001257),bartowski/Q6_K(0,001476). - 5 бит:
bartowski/Q5_K_L(0,003233),unsloth/UD-Q5_K_XL(0,003500). - Это разумный выбор для продакшн‑ботов, ассистентов для кода, внутренних тулов.
- Хорошие варианты 6 бит:
-
VRAM ограничена, но ниже Q4 уходить не хочется
- Лучший компромисс по верности при маленьком размере —
bartowski/IQ4_XS: 4,925 GiB, KLD 0,012662. - Если есть немного больше памяти, можно смотреть на
bartowski/Q4_K_S(5,18 GiB, KLD 0,010793).
- Лучший компромисс по верности при маленьком размере —
-
Нужен максимум эффективности на слабом железе
- По метрике эффективности лидирует
unsloth/UD-Q3_K_XL(4,707 GiB, KLD 0,025065, Eff. 0,210935). - Рядом
bartowski/Q3_K_Mиbartowski/IQ3_M. - Это варианты для ноутбуков и одногпу‑сборок, где каждый гигабайт VRAM на счету.
- По метрике эффективности лидирует
-
Когда лучше не экономить
- Кванты Q2/IQ2 показывают заметно худшие KLD и PPL. У них чаще возникают повторяющиеся циклы в генерации, что подтверждается и текстовыми тестами.
- Если вы делаете чат‑бота для реальных пользователей, такие варианты лучше не использовать.
Если вы работаете из России, доступ к Hugging Face и Reddit может потребовать VPN. Сами GGUF‑файлы обычно раздают через те же площадки, поэтому без обхода блокировок иногда не обойтись.
Место на рынке
Этот разбор не сравнивает Qwen3.5-9B с GPT-4o, Claude 3 или другими крупными моделями. Фокус только на внутрисемейном выборе квантов для одного и того же Qwen3.5-9B.
По сути, это готовая карта для тех, кто уже решил использовать Qwen3.5-9B локально и выбирает:
- какой объём VRAM он готов отдать,
- насколько близко к BF16 ему нужна модель,
- какой компромисс между размером и точностью выглядит разумным.
Главный вывод: между разными сборками с одинаковым «номиналом» (например, Q4_K_M от разных авторов) разница в KLD может быть в разы. То есть важен не только уровень квантования, но и конкретный рецепт и автор файла.