Дата публикации
ai_products

Какой квант Qwen3.5-9B GGUF брать: разбор 46 вариантов по цифрам

Что появилось / что изменилось

Сообщество вокруг Qwen3.5-9B разобрало сразу 46 вариантов квантов GGUF и сравнило их не «на глаз», а по двум метрикам:

  • KLD (KL Divergence) — насколько квантованный вариант отходит от исходной BF16-версии по распределению вероятностей токенов. Меньше — ближе к оригиналу.
  • PPL (perplexity) — средняя «растерянность» модели при предсказании следующего токена. Меньше — модель увереннее.

Все сравнения идут относительно BF16-бейзлайна Qwen3.5-9B. Цель — понять, какой файл скачивать под свои GPU/VRAM, а не брать первый попавшийся.

Ключевые цифры:

  • Самый точный квант по KLD — Q8_0: 8,873 GiB, PPL 7,3057, KLD 0,000814.
  • Почти рядом — unsloth/UD-Q8_K_XL: 12,083 GiB, PPL 7,3041, KLD 0,000895.
  • Лучшие среди 6-битных:
    • unsloth/UD-Q6_K_XL: 8,156 GiB, PPL 7,2948, KLD 0,001095.
    • bartowski/Q6_K_L: 7,622 GiB, PPL 7,3000, KLD 0,001257.
  • Оптимальные 5-битные:
    • bartowski/Q5_K_L: 6,848 GiB, PPL 7,3143, KLD 0,003233.
    • unsloth/UD-Q5_K_XL: 6,281 GiB, PPL 7,3093, KLD 0,003500.
  • Сегмент Q4 (4 бита):
    • bartowski/Q4_K_L: 6,166 GiB, KLD 0,007917.
    • unsloth/UD-Q4_K_XL: 5,556 GiB, KLD 0,008128.
    • bartowski/Q4_K_M: 5,463 GiB, KLD 0,008696.
    • bartowski/Q4_K_S: 5,18 GiB, KLD 0,010793.
    • Лучший «компактный» 4-битный по верности — bartowski/IQ4_XS: 4,925 GiB, KLD 0,012662.
  • Разница рецептов Q4_K_M:
    • bartowski/Q4_K_M: KLD 0,008696.
    • unsloth/Q4_K_M: KLD 0,022202.
    • lmstudio/Q4_K_M: KLD 0,035349.

Отдельно посчитали “Efficiency Score” — расстояние до «идеала» по формуле:

√(Normalized Size² + Normalized KLD²)

Меньше — лучше баланс между размером и точностью.

Топ по эффективности:

  1. unsloth/UD-Q3_K_XL: 4,707 GiB, KLD 0,025065, Eff. 0,210935.
  2. bartowski/Q3_K_M: 4,54 GiB, KLD 0,033974, Eff. 0,212071.
  3. bartowski/IQ3_M: 4,353 GiB, KLD 0,040563, Eff. 0,212186.
  4. bartowski/IQ4_XS: 4,925 GiB, KLD 0,012662, Eff. 0,218957.

Для визуалов есть токен‑уровневая карта расхождений по четырём доменам — код, математика, английский, французский — для всех 46 квантов.

Как это работает

Автор использует BF16‑версию Qwen3.5-9B как референс. Для каждого кванта он прогоняет один и тот же датасет и сравнивает распределения вероятностей токенов.

  • KLD показывает, насколько «смещается» распределение: квант предсказывает те же токены, но уже с другими вероятностями. Это ближе к измерению «верности характера» модели.
  • PPL строится из кросс‑энтропии по датасету и отражает суммарную ошибку предсказаний.

Обе метрики связаны, но PPL шумнее: на конкретном датасете модель может случайно показать лучшее значение. KLD стабильнее, потому что считается как отклонение от BF16, а не от ответов в данных.

Отдельный инструмент на Hugging Face строит тепловые карты по токенам: видно, в каких типах текста конкретный квант сильнее уходит от BF16 — например, в коде или в математике.

Что это значит для вас

Если вы поднимаете Qwen3.5-9B локально, эти цифры помогают не тратить VRAM и время на угадывание.

Практические сценарии:

  1. Максимальная верность BF16, VRAM не проблема

    • Берите Q8_0 (8,873 GiB, KLD 0,000814) или unsloth/UD-Q8_K_XL (12,083 GiB, KLD 0,000895).
    • Подходит для тонкой генерации текста, сложного кода, чувствительных задач, где важны нюансы.
  2. Нужен баланс точности и размера (6–5 бит)

    • Хорошие варианты 6 бит: unsloth/UD-Q6_K_XL (KLD 0,001095), bartowski/Q6_K_L (0,001257), bartowski/Q6_K (0,001476).
    • 5 бит: bartowski/Q5_K_L (0,003233), unsloth/UD-Q5_K_XL (0,003500).
    • Это разумный выбор для продакшн‑ботов, ассистентов для кода, внутренних тулов.
  3. VRAM ограничена, но ниже Q4 уходить не хочется

    • Лучший компромисс по верности при маленьком размере — bartowski/IQ4_XS: 4,925 GiB, KLD 0,012662.
    • Если есть немного больше памяти, можно смотреть на bartowski/Q4_K_S (5,18 GiB, KLD 0,010793).
  4. Нужен максимум эффективности на слабом железе

    • По метрике эффективности лидирует unsloth/UD-Q3_K_XL (4,707 GiB, KLD 0,025065, Eff. 0,210935).
    • Рядом bartowski/Q3_K_M и bartowski/IQ3_M.
    • Это варианты для ноутбуков и одногпу‑сборок, где каждый гигабайт VRAM на счету.
  5. Когда лучше не экономить

    • Кванты Q2/IQ2 показывают заметно худшие KLD и PPL. У них чаще возникают повторяющиеся циклы в генерации, что подтверждается и текстовыми тестами.
    • Если вы делаете чат‑бота для реальных пользователей, такие варианты лучше не использовать.

Если вы работаете из России, доступ к Hugging Face и Reddit может потребовать VPN. Сами GGUF‑файлы обычно раздают через те же площадки, поэтому без обхода блокировок иногда не обойтись.

Место на рынке

Этот разбор не сравнивает Qwen3.5-9B с GPT-4o, Claude 3 или другими крупными моделями. Фокус только на внутрисемейном выборе квантов для одного и того же Qwen3.5-9B.

По сути, это готовая карта для тех, кто уже решил использовать Qwen3.5-9B локально и выбирает:

  • какой объём VRAM он готов отдать,
  • насколько близко к BF16 ему нужна модель,
  • какой компромисс между размером и точностью выглядит разумным.

Главный вывод: между разными сборками с одинаковым «номиналом» (например, Q4_K_M от разных авторов) разница в KLD может быть в разы. То есть важен не только уровень квантования, но и конкретный рецепт и автор файла.


Читайте также