- Дата публикации
Qwen3.5-35B Aggressive: 35‑миллиардная MoE‑модель без цензуры и отказов
Что появилось / что изменилось
На Hugging Face вышла Qwen3.5-35B-A3B Uncensored (Aggressive) в формате GGUF — самая крупная из агрессивных сборок Qwen3.5 от HauhauCS.
Ключевые факты:
- 35 миллиардов параметров, при этом активно работает около 3 миллиардов за счёт архитектуры Mixture-of-Experts (MoE).
- 256 экспертов, из них 8+1 активны на каждый токен.
- Контекст: 262 000 токенов.
- Мультимодальность: текст + изображения + видео.
- Режим Aggressive = модель не отказывается отвечать (0 отказов из 465 тестовых запросов).
- Автор заявляет: «полностью разблокирована без потери качества» — без лупов, деградации и заметных артефактов в его тестах.
В релиз входят форматы:
- BF16 (полная версия)
- Квантизации: Q8_0, Q6_K, Q5_K_M, Q4_K_M, IQ4_XS, Q3_K_M, IQ3_M, IQ2_M
- mmproj для работы с изображениями и видео
- Все кванты собраны с использованием imatrix.
Поддерживаются:
- llama.cpp (нужен флаг
--jinja) - LM Studio (может показывать «256x2.6B» для BF16, это только косметика — модель работает корректно).
Из рекомендованных настроек сэмплинга от автора:
- temperature = 1.0
- top_k = 20
- top_p = 0.95
- min_p = 0
- repeat_penalty = 1
- presence_penalty = 1.5
Ранее тот же автор уже выложил Qwen3.5-4B Aggressive, Qwen3.5-9B Aggressive и Qwen3.5-27B Aggressive. Qwen3.5-35B-A3B Aggressive — пока самая тяжёлая из этой линейки.
Как это работает
Qwen3.5-35B-A3B — это Mixture-of-Experts‑модель: 35B общих параметров, но на каждый токен реально задействуется около 3B. За счёт этого модель остаётся крупной по качеству, но экономит вычисления.
Под капотом:
- 256 экспертов, из которых роутер выбирает 8 основных + 1 вспомогательного на каждый токен.
- Гибридное внимание: Gated DeltaNet + классический softmax в пропорции 3:1. Часть внимания идёт через DeltaNet, часть — через привычный self-attention.
- 262K контекста позволяют «кормить» модель очень длинными диалогами, документами или стенограммами без агрессивного обрезания.
- Мультимодальность: отдельный mmproj‑модуль связывает текстовую часть с визуальными входами — изображениями и видео.
GGUF‑формат делает модель совместимой с локальными рантаймами вроде llama.cpp и LM Studio. Разные уровни квантизации позволяют запускать Qwen3.5-35B-A3B Aggressive как на мощных GPU/CPU (BF16, Q8_0), так и на более скромных машинах (Q4_K_M, IQ3_M, IQ2_M) с ценой в виде падения качества.
Важно: Aggressive‑сборка не меняет «характер» Qwen3.5, а снимает внутренние ограничения на отказы. По сути, это оригинальная Qwen3.5‑35B без фильтров безопасности и с настройкой «не отказывать».
Что это значит для вас
Для кого это интересно:
- Разработчики локальных ассистентов, которым нужны длинные контексты и мультимодальность без удалённых API.
- Исследователи безопасности и alignment, которые тестируют поведение LLM без встроенных фильтров.
- Создатели специализированных ботов и агентов, где цензура мешает тестированию сценариев.
Где модель особенно полезна:
- Анализ больших текстовых массивов — длинные отчёты, логи, транскрипты (262K контекста даёт простор для экспериментов).
- Мультимодальные прототипы: описание изображений и видео, генерация текстов по визуальному контенту.
- Локальные RAG‑сценарии: подгрузка собственных баз знаний напрямую в контекст.
Где стоит быть осторожнее:
- Модель агрессивно не отказывается отвечать, фильтров безопасности нет. Для пользовательских продуктов без дополнительного слоя модерации это прямой риск.
- Для продакшн‑сценариев с конечными пользователями придётся строить собственный safety‑слой: фильтрация промптов и ответов, пост‑обработка контента.
- Крупный размер: даже с квантизацией придётся внимательно считать память и планировать железо.
Практические советы по запуску:
- Для локальных экспериментов с текстом подойдёт квантизация Q4_K_M или IQ4_XS — разумный компромисс между качеством и требованиями к железу.
- Для мультимодальных задач обязательно подключайте mmproj‑файлы.
- В llama.cpp запускайте с
--jinja, иначе формат промптов может работать некорректно. - Параметры сэмплинга из релиза — хорошая стартовая точка, но имеет смысл свериться с официальными рекомендациями Qwen для «thinking» и обычного режима.
Доступ: модель распространяется через Hugging Face (репозиторий HauhauCS). Для пользователей из России может понадобиться VPN, если доступ к Hugging Face ограничен на уровне провайдера.
Место на рынке
Qwen3.5-35B-A3B Aggressive — это локальная альтернатива крупным закрытым LLM вроде GPT-4o и Claude 3.5, но с другим фокусом:
- Запуск локально: в отличие от GPT-4o и Claude 3.5, Qwen3.5-35B-A3B можно развернуть у себя, без отправки данных в облако.
- Мультимодальность и длинный контекст: 262K токенов и поддержка изображений/видео выводят её в категорию «тяжёлых» локальных моделей.
- Отсутствие встроенных ограничений: Aggressive‑режим снимает слой отказов, которого нельзя отключить в облачных GPT-4o или Claude 3.5.
По сравнению с более компактными сборками Qwen3.5 от того же автора (4B, 9B, 27B), версия 35B логично нацелена на максимум качества и возможностей, а не на экономию ресурсов.
Кому имеет смысл смотреть в сторону Qwen3.5-35B-A3B Aggressive:
- тем, кто строит локальные системы, где важна конфиденциальность и полный контроль над поведением модели;
- тем, кто экспериментирует с мультимодальными пайплайнами и длинными контекстами;
- тем, кто готов инвестировать в железо и собственную инфраструктуру безопасности.
Если задача — просто получить качественный ответ через веб‑интерфейс без возни с серверами и рисков по контенту, GPT-4o или Claude 3.5 по‑прежнему проще. Qwen3.5-35B-A3B Aggressive — инструмент для тех, кто хочет держать всё у себя и готов за это заплатить сложностью настройки и эксплуатации.