Qwen3.5-35B Aggressive: 35‑миллиардная MoE‑модель без цензуры и отказов — VogueTech

Что появилось / что изменилось

На Hugging Face вышла Qwen3.5-35B-A3B Uncensored (Aggressive) в формате GGUF — самая крупная из агрессивных сборок Qwen3.5 от HauhauCS.

Ключевые факты:

35 миллиардов параметров, при этом активно работает около 3 миллиардов за счёт архитектуры Mixture-of-Experts (MoE).
256 экспертов, из них 8+1 активны на каждый токен.
Контекст: 262 000 токенов.
Мультимодальность: текст + изображения + видео.
Режим Aggressive = модель не отказывается отвечать (0 отказов из 465 тестовых запросов).
Автор заявляет: «полностью разблокирована без потери качества» — без лупов, деградации и заметных артефактов в его тестах.

В релиз входят форматы:

BF16 (полная версия)
Квантизации: Q8_0, Q6_K, Q5_K_M, Q4_K_M, IQ4_XS, Q3_K_M, IQ3_M, IQ2_M
mmproj для работы с изображениями и видео
Все кванты собраны с использованием imatrix.

Поддерживаются:

llama.cpp (нужен флаг --jinja)
LM Studio (может показывать «256x2.6B» для BF16, это только косметика — модель работает корректно).

Из рекомендованных настроек сэмплинга от автора:

temperature = 1.0
top_k = 20
top_p = 0.95
min_p = 0
repeat_penalty = 1
presence_penalty = 1.5

Ранее тот же автор уже выложил Qwen3.5-4B Aggressive, Qwen3.5-9B Aggressive и Qwen3.5-27B Aggressive. Qwen3.5-35B-A3B Aggressive — пока самая тяжёлая из этой линейки.

Как это работает

Qwen3.5-35B-A3B — это Mixture-of-Experts‑модель: 35B общих параметров, но на каждый токен реально задействуется около 3B. За счёт этого модель остаётся крупной по качеству, но экономит вычисления.

Под капотом:

256 экспертов, из которых роутер выбирает 8 основных + 1 вспомогательного на каждый токен.
Гибридное внимание: Gated DeltaNet + классический softmax в пропорции 3:1. Часть внимания идёт через DeltaNet, часть — через привычный self-attention.
262K контекста позволяют «кормить» модель очень длинными диалогами, документами или стенограммами без агрессивного обрезания.
Мультимодальность: отдельный mmproj‑модуль связывает текстовую часть с визуальными входами — изображениями и видео.

GGUF‑формат делает модель совместимой с локальными рантаймами вроде llama.cpp и LM Studio. Разные уровни квантизации позволяют запускать Qwen3.5-35B-A3B Aggressive как на мощных GPU/CPU (BF16, Q8_0), так и на более скромных машинах (Q4_K_M, IQ3_M, IQ2_M) с ценой в виде падения качества.

Важно: Aggressive‑сборка не меняет «характер» Qwen3.5, а снимает внутренние ограничения на отказы. По сути, это оригинальная Qwen3.5‑35B без фильтров безопасности и с настройкой «не отказывать».

Что это значит для вас

Для кого это интересно:

Разработчики локальных ассистентов, которым нужны длинные контексты и мультимодальность без удалённых API.
Исследователи безопасности и alignment, которые тестируют поведение LLM без встроенных фильтров.
Создатели специализированных ботов и агентов, где цензура мешает тестированию сценариев.

Где модель особенно полезна:

Анализ больших текстовых массивов — длинные отчёты, логи, транскрипты (262K контекста даёт простор для экспериментов).
Мультимодальные прототипы: описание изображений и видео, генерация текстов по визуальному контенту.
Локальные RAG‑сценарии: подгрузка собственных баз знаний напрямую в контекст.

Где стоит быть осторожнее:

Модель агрессивно не отказывается отвечать, фильтров безопасности нет. Для пользовательских продуктов без дополнительного слоя модерации это прямой риск.
Для продакшн‑сценариев с конечными пользователями придётся строить собственный safety‑слой: фильтрация промптов и ответов, пост‑обработка контента.
Крупный размер: даже с квантизацией придётся внимательно считать память и планировать железо.

Практические советы по запуску:

Для локальных экспериментов с текстом подойдёт квантизация Q4_K_M или IQ4_XS — разумный компромисс между качеством и требованиями к железу.
Для мультимодальных задач обязательно подключайте mmproj‑файлы.
В llama.cpp запускайте с --jinja, иначе формат промптов может работать некорректно.
Параметры сэмплинга из релиза — хорошая стартовая точка, но имеет смысл свериться с официальными рекомендациями Qwen для «thinking» и обычного режима.

Доступ: модель распространяется через Hugging Face (репозиторий HauhauCS). Для пользователей из России может понадобиться VPN, если доступ к Hugging Face ограничен на уровне провайдера.

Место на рынке

Qwen3.5-35B-A3B Aggressive — это локальная альтернатива крупным закрытым LLM вроде GPT-4o и Claude 3.5, но с другим фокусом:

Запуск локально: в отличие от GPT-4o и Claude 3.5, Qwen3.5-35B-A3B можно развернуть у себя, без отправки данных в облако.
Мультимодальность и длинный контекст: 262K токенов и поддержка изображений/видео выводят её в категорию «тяжёлых» локальных моделей.
Отсутствие встроенных ограничений: Aggressive‑режим снимает слой отказов, которого нельзя отключить в облачных GPT-4o или Claude 3.5.

По сравнению с более компактными сборками Qwen3.5 от того же автора (4B, 9B, 27B), версия 35B логично нацелена на максимум качества и возможностей, а не на экономию ресурсов.

Кому имеет смысл смотреть в сторону Qwen3.5-35B-A3B Aggressive:

тем, кто строит локальные системы, где важна конфиденциальность и полный контроль над поведением модели;
тем, кто экспериментирует с мультимодальными пайплайнами и длинными контекстами;
тем, кто готов инвестировать в железо и собственную инфраструктуру безопасности.

Если задача — просто получить качественный ответ через веб‑интерфейс без возни с серверами и рисков по контенту, GPT-4o или Claude 3.5 по‑прежнему проще. Qwen3.5-35B-A3B Aggressive — инструмент для тех, кто хочет держать всё у себя и готов за это заплатить сложностью настройки и эксплуатации.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также