Дата публикации
ai_products

Qwen3.5-35B Aggressive: 35‑миллиардная MoE‑модель без цензуры и отказов

Что появилось / что изменилось

На Hugging Face вышла Qwen3.5-35B-A3B Uncensored (Aggressive) в формате GGUF — самая крупная из агрессивных сборок Qwen3.5 от HauhauCS.

Ключевые факты:

  • 35 миллиардов параметров, при этом активно работает около 3 миллиардов за счёт архитектуры Mixture-of-Experts (MoE).
  • 256 экспертов, из них 8+1 активны на каждый токен.
  • Контекст: 262 000 токенов.
  • Мультимодальность: текст + изображения + видео.
  • Режим Aggressive = модель не отказывается отвечать (0 отказов из 465 тестовых запросов).
  • Автор заявляет: «полностью разблокирована без потери качества» — без лупов, деградации и заметных артефактов в его тестах.

В релиз входят форматы:

  • BF16 (полная версия)
  • Квантизации: Q8_0, Q6_K, Q5_K_M, Q4_K_M, IQ4_XS, Q3_K_M, IQ3_M, IQ2_M
  • mmproj для работы с изображениями и видео
  • Все кванты собраны с использованием imatrix.

Поддерживаются:

  • llama.cpp (нужен флаг --jinja)
  • LM Studio (может показывать «256x2.6B» для BF16, это только косметика — модель работает корректно).

Из рекомендованных настроек сэмплинга от автора:

  • temperature = 1.0
  • top_k = 20
  • top_p = 0.95
  • min_p = 0
  • repeat_penalty = 1
  • presence_penalty = 1.5

Ранее тот же автор уже выложил Qwen3.5-4B Aggressive, Qwen3.5-9B Aggressive и Qwen3.5-27B Aggressive. Qwen3.5-35B-A3B Aggressive — пока самая тяжёлая из этой линейки.

Как это работает

Qwen3.5-35B-A3B — это Mixture-of-Experts‑модель: 35B общих параметров, но на каждый токен реально задействуется около 3B. За счёт этого модель остаётся крупной по качеству, но экономит вычисления.

Под капотом:

  • 256 экспертов, из которых роутер выбирает 8 основных + 1 вспомогательного на каждый токен.
  • Гибридное внимание: Gated DeltaNet + классический softmax в пропорции 3:1. Часть внимания идёт через DeltaNet, часть — через привычный self-attention.
  • 262K контекста позволяют «кормить» модель очень длинными диалогами, документами или стенограммами без агрессивного обрезания.
  • Мультимодальность: отдельный mmproj‑модуль связывает текстовую часть с визуальными входами — изображениями и видео.

GGUF‑формат делает модель совместимой с локальными рантаймами вроде llama.cpp и LM Studio. Разные уровни квантизации позволяют запускать Qwen3.5-35B-A3B Aggressive как на мощных GPU/CPU (BF16, Q8_0), так и на более скромных машинах (Q4_K_M, IQ3_M, IQ2_M) с ценой в виде падения качества.

Важно: Aggressive‑сборка не меняет «характер» Qwen3.5, а снимает внутренние ограничения на отказы. По сути, это оригинальная Qwen3.5‑35B без фильтров безопасности и с настройкой «не отказывать».

Что это значит для вас

Для кого это интересно:

  • Разработчики локальных ассистентов, которым нужны длинные контексты и мультимодальность без удалённых API.
  • Исследователи безопасности и alignment, которые тестируют поведение LLM без встроенных фильтров.
  • Создатели специализированных ботов и агентов, где цензура мешает тестированию сценариев.

Где модель особенно полезна:

  • Анализ больших текстовых массивов — длинные отчёты, логи, транскрипты (262K контекста даёт простор для экспериментов).
  • Мультимодальные прототипы: описание изображений и видео, генерация текстов по визуальному контенту.
  • Локальные RAG‑сценарии: подгрузка собственных баз знаний напрямую в контекст.

Где стоит быть осторожнее:

  • Модель агрессивно не отказывается отвечать, фильтров безопасности нет. Для пользовательских продуктов без дополнительного слоя модерации это прямой риск.
  • Для продакшн‑сценариев с конечными пользователями придётся строить собственный safety‑слой: фильтрация промптов и ответов, пост‑обработка контента.
  • Крупный размер: даже с квантизацией придётся внимательно считать память и планировать железо.

Практические советы по запуску:

  • Для локальных экспериментов с текстом подойдёт квантизация Q4_K_M или IQ4_XS — разумный компромисс между качеством и требованиями к железу.
  • Для мультимодальных задач обязательно подключайте mmproj‑файлы.
  • В llama.cpp запускайте с --jinja, иначе формат промптов может работать некорректно.
  • Параметры сэмплинга из релиза — хорошая стартовая точка, но имеет смысл свериться с официальными рекомендациями Qwen для «thinking» и обычного режима.

Доступ: модель распространяется через Hugging Face (репозиторий HauhauCS). Для пользователей из России может понадобиться VPN, если доступ к Hugging Face ограничен на уровне провайдера.

Место на рынке

Qwen3.5-35B-A3B Aggressive — это локальная альтернатива крупным закрытым LLM вроде GPT-4o и Claude 3.5, но с другим фокусом:

  • Запуск локально: в отличие от GPT-4o и Claude 3.5, Qwen3.5-35B-A3B можно развернуть у себя, без отправки данных в облако.
  • Мультимодальность и длинный контекст: 262K токенов и поддержка изображений/видео выводят её в категорию «тяжёлых» локальных моделей.
  • Отсутствие встроенных ограничений: Aggressive‑режим снимает слой отказов, которого нельзя отключить в облачных GPT-4o или Claude 3.5.

По сравнению с более компактными сборками Qwen3.5 от того же автора (4B, 9B, 27B), версия 35B логично нацелена на максимум качества и возможностей, а не на экономию ресурсов.

Кому имеет смысл смотреть в сторону Qwen3.5-35B-A3B Aggressive:

  • тем, кто строит локальные системы, где важна конфиденциальность и полный контроль над поведением модели;
  • тем, кто экспериментирует с мультимодальными пайплайнами и длинными контекстами;
  • тем, кто готов инвестировать в железо и собственную инфраструктуру безопасности.

Если задача — просто получить качественный ответ через веб‑интерфейс без возни с серверами и рисков по контенту, GPT-4o или Claude 3.5 по‑прежнему проще. Qwen3.5-35B-A3B Aggressive — инструмент для тех, кто хочет держать всё у себя и готов за это заплатить сложностью настройки и эксплуатации.


Читайте также