Какой квант Qwen3.5-9B GGUF брать: разбор 46 вариантов по цифрам — VogueTech

Что появилось / что изменилось

Сообщество вокруг Qwen3.5-9B разобрало сразу 46 вариантов квантов GGUF и сравнило их не «на глаз», а по двум метрикам:

KLD (KL Divergence) — насколько квантованный вариант отходит от исходной BF16-версии по распределению вероятностей токенов. Меньше — ближе к оригиналу.
PPL (perplexity) — средняя «растерянность» модели при предсказании следующего токена. Меньше — модель увереннее.

Все сравнения идут относительно BF16-бейзлайна Qwen3.5-9B. Цель — понять, какой файл скачивать под свои GPU/VRAM, а не брать первый попавшийся.

Ключевые цифры:

Самый точный квант по KLD — Q8_0: 8,873 GiB, PPL 7,3057, KLD 0,000814.
Почти рядом — unsloth/UD-Q8_K_XL: 12,083 GiB, PPL 7,3041, KLD 0,000895.
Лучшие среди 6-битных:
- unsloth/UD-Q6_K_XL: 8,156 GiB, PPL 7,2948, KLD 0,001095.
- bartowski/Q6_K_L: 7,622 GiB, PPL 7,3000, KLD 0,001257.
Оптимальные 5-битные:
- bartowski/Q5_K_L: 6,848 GiB, PPL 7,3143, KLD 0,003233.
- unsloth/UD-Q5_K_XL: 6,281 GiB, PPL 7,3093, KLD 0,003500.
Сегмент Q4 (4 бита):
- bartowski/Q4_K_L: 6,166 GiB, KLD 0,007917.
- unsloth/UD-Q4_K_XL: 5,556 GiB, KLD 0,008128.
- bartowski/Q4_K_M: 5,463 GiB, KLD 0,008696.
- bartowski/Q4_K_S: 5,18 GiB, KLD 0,010793.
- Лучший «компактный» 4-битный по верности — bartowski/IQ4_XS: 4,925 GiB, KLD 0,012662.
Разница рецептов Q4_K_M:
- bartowski/Q4_K_M: KLD 0,008696.
- unsloth/Q4_K_M: KLD 0,022202.
- lmstudio/Q4_K_M: KLD 0,035349.

Отдельно посчитали “Efficiency Score” — расстояние до «идеала» по формуле:

√(Normalized Size² + Normalized KLD²)

Меньше — лучше баланс между размером и точностью.

Топ по эффективности:

unsloth/UD-Q3_K_XL: 4,707 GiB, KLD 0,025065, Eff. 0,210935.
bartowski/Q3_K_M: 4,54 GiB, KLD 0,033974, Eff. 0,212071.
bartowski/IQ3_M: 4,353 GiB, KLD 0,040563, Eff. 0,212186.
bartowski/IQ4_XS: 4,925 GiB, KLD 0,012662, Eff. 0,218957.

Для визуалов есть токен‑уровневая карта расхождений по четырём доменам — код, математика, английский, французский — для всех 46 квантов.

Как это работает

Автор использует BF16‑версию Qwen3.5-9B как референс. Для каждого кванта он прогоняет один и тот же датасет и сравнивает распределения вероятностей токенов.

KLD показывает, насколько «смещается» распределение: квант предсказывает те же токены, но уже с другими вероятностями. Это ближе к измерению «верности характера» модели.
PPL строится из кросс‑энтропии по датасету и отражает суммарную ошибку предсказаний.

Обе метрики связаны, но PPL шумнее: на конкретном датасете модель может случайно показать лучшее значение. KLD стабильнее, потому что считается как отклонение от BF16, а не от ответов в данных.

Отдельный инструмент на Hugging Face строит тепловые карты по токенам: видно, в каких типах текста конкретный квант сильнее уходит от BF16 — например, в коде или в математике.

Что это значит для вас

Если вы поднимаете Qwen3.5-9B локально, эти цифры помогают не тратить VRAM и время на угадывание.

Практические сценарии:

Максимальная верность BF16, VRAM не проблема
- Берите Q8_0 (8,873 GiB, KLD 0,000814) или unsloth/UD-Q8_K_XL (12,083 GiB, KLD 0,000895).
- Подходит для тонкой генерации текста, сложного кода, чувствительных задач, где важны нюансы.
Нужен баланс точности и размера (6–5 бит)
- Хорошие варианты 6 бит: unsloth/UD-Q6_K_XL (KLD 0,001095), bartowski/Q6_K_L (0,001257), bartowski/Q6_K (0,001476).
- 5 бит: bartowski/Q5_K_L (0,003233), unsloth/UD-Q5_K_XL (0,003500).
- Это разумный выбор для продакшн‑ботов, ассистентов для кода, внутренних тулов.
VRAM ограничена, но ниже Q4 уходить не хочется
- Лучший компромисс по верности при маленьком размере — bartowski/IQ4_XS: 4,925 GiB, KLD 0,012662.
- Если есть немного больше памяти, можно смотреть на bartowski/Q4_K_S (5,18 GiB, KLD 0,010793).
Нужен максимум эффективности на слабом железе
- По метрике эффективности лидирует unsloth/UD-Q3_K_XL (4,707 GiB, KLD 0,025065, Eff. 0,210935).
- Рядом bartowski/Q3_K_M и bartowski/IQ3_M.
- Это варианты для ноутбуков и одногпу‑сборок, где каждый гигабайт VRAM на счету.
Когда лучше не экономить
- Кванты Q2/IQ2 показывают заметно худшие KLD и PPL. У них чаще возникают повторяющиеся циклы в генерации, что подтверждается и текстовыми тестами.
- Если вы делаете чат‑бота для реальных пользователей, такие варианты лучше не использовать.

Если вы работаете из России, доступ к Hugging Face и Reddit может потребовать VPN. Сами GGUF‑файлы обычно раздают через те же площадки, поэтому без обхода блокировок иногда не обойтись.

Место на рынке

Этот разбор не сравнивает Qwen3.5-9B с GPT-4o, Claude 3 или другими крупными моделями. Фокус только на внутрисемейном выборе квантов для одного и того же Qwen3.5-9B.

По сути, это готовая карта для тех, кто уже решил использовать Qwen3.5-9B локально и выбирает:

какой объём VRAM он готов отдать,
насколько близко к BF16 ему нужна модель,
какой компромисс между размером и точностью выглядит разумным.

Главный вывод: между разными сборками с одинаковым «номиналом» (например, Q4_K_M от разных авторов) разница в KLD может быть в разы. То есть важен не только уровень квантования, но и конкретный рецепт и автор файла.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также