Qwen3.6‑27B: флагманский кодер в формате 27B, который можно реально развернуть — VogueTech

Что нового

Alibaba представила Qwen3.6‑27B — плотную (dense) мультимодальную LLM на 27 млрд параметров. Это открытая модель, ориентированная прежде всего на "агентный" кодинг: когда ИИ не просто пишет функции, а сам запускает команды, редактирует файлы и решает сложные задачи в большом кодовой базе.

Ключевые факты:

Размер: 27 млрд параметров, плотная архитектура без Mixture-of-Experts.
Мультимодальность: текст + изображения + видео в одном чекпойнте, есть режимы с "мышлением" и без него.
Открытые веса: доступны на Hugging Face и ModelScope, можно разворачивать у себя.
Доступ: через Qwen Studio и API Alibaba Cloud Model Studio (поддержка OpenAI-совместимого и Anthropic-совместимого протоколов).
Контекст: до 256K токенов на ряде бенчмарков (например, Terminal-Bench 2.0), в конфиге OpenClaw — 131 072 токена контекста и до 16 384 токенов генерации.

Главный тезис релиза: Qwen3.6‑27B обгоняет прошлый открытый флагман Qwen3.5‑397B‑A17B (397B total / 17B active MoE) по всем ключевым кодовым бенчмаркам, при этом его проще развернуть.

Цифры по кодингу (agentic coding)

Сравнение с Qwen3.5‑397B‑A17B, Qwen3.5‑27B, Gemma4‑31B и Claude 4.5 Opus (чем выше — тем лучше):

SWE-bench Verified (фикс багов в реальных репозиториях):
- Qwen3.5‑27B: 75,0
- Qwen3.5‑397B‑A17B: 76,2
- Gemma4‑31B: 52,0
- Claude 4.5 Opus: 80,9
- Qwen3.6‑35B‑A3B: 73,4
- Qwen3.6‑27B: 77,2
SWE-bench Pro (усложнённый набор задач):
- Qwen3.5‑27B: 51,2
- Qwen3.5‑397B‑A17B: 50,9
- Gemma4‑31B: 35,7
- Claude 4.5 Opus: 57,1
- Qwen3.6‑35B‑A3B: 49,5
- Qwen3.6‑27B: 53,5
SWE-bench Multilingual:
- Qwen3.5‑27B: 69,3
- Qwen3.5‑397B‑A17B: 69,3
- Gemma4‑31B: 51,7
- Claude 4.5 Opus: 77,5
- Qwen3.6‑35B‑A3B: 67,2
- Qwen3.6‑27B: 71,3
Terminal-Bench 2.0 (работа в терминале, длительные сессии):
- Qwen3.5‑27B: 41,6
- Qwen3.5‑397B‑A17B: 52,5
- Gemma4‑31B: 42,9
- Claude 4.5 Opus: 59,3
- Qwen3.6‑35B‑A3B: 51,5
- Qwen3.6‑27B: 59,3
SkillsBench Avg5 (78 задач, реальный dev-воркфлоу):
- Qwen3.5‑27B: 27,2
- Qwen3.5‑397B‑A17B: 30,0
- Gemma4‑31B: 23,6
- Claude 4.5 Opus: 45,3
- Qwen3.6‑35B‑A3B: 28,7
- Qwen3.6‑27B: 48,2

То есть 27B-плотник обгоняет 397B MoE-флагман Qwen3.5 на всех этих метриках и заметно приближается к Claude 4.5 Opus в сложных агентных сценариях.

Размышление и знания

На задачах знаний и рассуждений Qwen3.6‑27B держится на уровне крупных проприетарных моделей:

GPQA Diamond (глубокие научные вопросы) — 87,8 (Qwen3.5‑397B‑A17B: 88,4, Claude 4.5 Opus: 87,0).
MMLU‑Pro — 86,2 (против 87,8 у Qwen3.5‑397B‑A17B и 89,5 у Claude 4.5 Opus).
C‑Eval (китайский экзаменный бенчмарк) — 91,4 (Qwen3.5‑397B‑A17B: 93,0, Claude 4.5 Opus: 92,2).

Визуально‑текстовые задачи

Модель нативно мультимодальная и уверенно держит планку по vision-language бенчмаркам:

MMMU (мультимодальные STEM-задачи): 82,9 (Qwen3.5‑397B‑A17B: 85,0, Gemma4‑31B: 80,4, Claude 4.5 Opus: 80,7).
MMMU‑Pro: 75,8 (Qwen3.5‑397B‑A17B: 79,0, Gemma4‑31B: 76,9, Claude 4.5 Opus: 70,6).
DynaMath: 85,6 (Qwen3.5‑397B‑A17B: 86,3, Gemma4‑31B: 79,5, Claude 4.5 Opus: 79,7).
RealWorldQA: 84,1 (Qwen3.5‑397B‑A17B: 83,9, Gemma4‑31B: 72,3, Claude 4.5 Opus: 77,0).
AndroidWorld (агент на Android-интерфейсах): 70,3 (данных по конкурентам в таблице нет).

Как это работает

Плотная архитектура вместо MoE

Qwen3.6‑27B — dense‑модель: все 27 млрд параметров работают на каждом шаге. Это противоположность Mixture-of-Experts (MoE), где активен только небольшой поднабор параметров.

Что это даёт:

Проще разворачивать: не нужно MoE‑роутинг, нет сложной логики выбора экспертов.
Предсказуемые ресурсы: можно прикинуть требования по памяти и скорости без учёта активных/неактивных экспертов.
Поведение ближе к классическим LLM: проще интеграция в существующие стеки (OpenAI‑совместимые API, стандартные фреймворки).

При этом Qwen3.6‑27B по факту обходит MoE‑флагман Qwen3.5‑397B‑A17B на задачах кодинга, хотя у того суммарно 397B параметров (17B активных на токен).

Мультимодальность "из коробки"

Модель обучили как единый мультимодальный чекпойнт:

текст,
изображения,
видео.

Не нужно держать отдельные версии для текста и картинок. Как и у Qwen3.6‑35B‑A3B, один и тот же чекпойнт поддерживает режим с "мышлением" и без него.

Alibaba добавила фичу preserve_thinking в API: можно сохранять внутреннее "мышление" модели между шагами агента. Это особенно полезно, когда вы строите цепочки действий: модель помнит свои промежуточные рассуждения и не пересобирает контекст с нуля.

Агентный кодинг и длинный контекст

Qwen3.6‑27B оптимизировали под сценарии, где модель действует как агент:

вызывает инструменты (bash, редактирование файлов),
работает в терминале по несколько часов (Terminal-Bench 2.0: 3 часа, 32 CPU, 48 ГБ RAM),
держит огромный контекст (до 256K токенов на ряде тестов).

Примеры настроек из бенчмарков:

SWE-bench: внутренняя агентная обвязка (bash + file-edit), температура 1.0, top_p 0.95, контекст 200K токенов.
Terminal-Bench 2.0: Harbor/Terminus-2, таймаут 3 часа, 32 CPU / 48 ГБ RAM, температура 1.0, top_p 0.95, top_k 20, max_tokens 80K, контекст 256K.
QwenClawBench: температура 0.6, контекст 256K.

Совместимость с экосистемой

Qwen3.6‑27B уже интегрируется с популярными агентами для разработчиков:

OpenClaw (бывший Moltbot / Clawdbot) — self-hosted open-source кодовый агент.
Qwen Code — терминальный агент, заточенный под Qwen.
Claude Code — через Anthropic-совместимый API.

API Alibaba Cloud Model Studio поддерживает:

OpenAI‑совместимый интерфейс chat completions / responses,
Anthropic‑совместимый интерфейс.

Это значит, что Qwen3.6‑27B можно подключить к уже существующим тулзам, которые умеют работать с GPT‑подобными или Claude‑подобными API, просто поменяв endpoint и ключ.

Что это значит для вас

Кому это интересно

Бэкенд‑ и фулстек‑разработчикам

Если вы уже используете GPT‑класса модели для рефакторинга, генерации кода и работы с репозиториями, Qwen3.6‑27B даёт:
- более уверенное поведение в агентных сценариях (SWE-bench Verified 77,2; Pro 53,5; Terminal-Bench 2.0 59,3),
- сильный результат на SkillsBench (48,2) — это ближе к реальной работе, чем голые задачки с LeetCode,
- длинный контекст до сотен тысяч токенов — удобно для монореп и больших legacy‑проектов.
ML‑командам и продуктовым командам, которые хотят self-hosted LLM

27B — это формат, который уже можно развернуть в своём кластере, не уходя в экстремальные размеры 400B+.

Плюсы:
- открытые веса — можно дообучать, адаптировать под свои домены и кодовую базу;
- плотная архитектура — проще эксплуатация и мониторинг;
- мультимодальность — один чекпойнт для текста, документов, скриншотов, UI и видео.
Инженерам, строящим агентов и dev‑тулзы

Qwen3.6‑27B хорошо ложится в роль "мозга" для:
- терминальных ассистентов (через OpenClaw / Qwen Code);
- автотест‑агентов, которые сами правят код и гоняют тесты;
- UI‑агентов (AndroidWorld 70,3) — автоматизация действий по скриншотам и видео.

Где модель сильна

Agentic coding: сложные задачи в реальных репозиториях, терминальные сценарии, многошаговые правки кода.
Мультимодальный анализ: скриншоты, документы, видео, задачи на пространственное мышление (CountBench 97,8; RefCOCO avg 92,5; RefSpatialBench 70,0).
STEM и олимпиадные задачи: GPQA Diamond 87,8, AIME26 94,1, IMOAnswerBench 80,8.
Документный OCR и понимание: OCRBench 89,4, CC-OCR 81,2, CharXiv RQ 78,4.

Где стоит быть осторожнее

Чистый reasoning без кода. На MMLU‑Pro и SuperGPQA Qwen3.6‑27B хороша, но не всегда догоняет топовые проприетарные модели вроде Claude 4.5 Opus.
Простые VQA. На SimpleVQA у Qwen3.6‑27B — 56,1, ниже, чем у Qwen3.5‑397B‑A17B (67,1) и Claude 4.5 Opus (65,7). Для совсем бытовых вопросов по картинкам можно получить не лучший результат.
Инфраструктура. 27B — это всё ещё тяжёлая модель. Для комфортного self-hosted сценария понадобится мощный GPU‑кластер или как минимум несколько карт с большой памятью.

Доступность из России

Qwen3.6‑27B доступна через:

Qwen Studio (веб-интерфейс),
API Alibaba Cloud Model Studio,
Hugging Face / ModelScope (веса для self-hosted).

Доступ к этим сервисам из России может потребовать VPN и обход региональных ограничений. Self-hosted вариант через скачивание весов с Hugging Face или ModelScope тоже может зависеть от сетевых ограничений. Для продакшн‑использования стоит заранее проверить юридические и технические риски.

Если вы не хотите полагаться на внешние API, имеет смысл сразу планировать развёртывание модели в своём контуре и использовать её как внутренний кодовый ассистент.

Место на рынке

Против Qwen3.5‑397B‑A17B

Главное сравнение — с прошлым открытым флагманом Qwen:

Размер: 27B против 397B total / 17B active (MoE).
Архитектура: плотная против MoE.
Кодинг: Qwen3.6‑27B выше по всем ключевым бенчмаркам:
- SWE-bench Verified: 77,2 vs 76,2
- SWE-bench Pro: 53,5 vs 50,9
- Terminal-Bench 2.0: 59,3 vs 52,5
- SkillsBench: 48,2 vs 30,0

При меньшем размере Qwen3.6‑27B даёт лучшее поведение в реальных dev‑сценариях. Это делает её более практичным выбором для команд, которые хотят сильного кодового ассистента, но не готовы тянуть 400B‑класс.

Против Gemma4‑31B

На уровне открытых плотных моделей сопоставимого масштаба Qwen3.6‑27B выглядит агрессивно:

SWE-bench Verified: 77,2 vs 52,0 у Gemma4‑31B.
SWE-bench Pro: 53,5 vs 35,7.
SWE-bench Multilingual: 71,3 vs 51,7.
SkillsBench: 48,2 vs 23,6.
GPQA Diamond: 87,8 vs 84,3.
MMMU: 82,9 vs 80,4.

По основным метрикам кодинга и reasoning Qwen3.6‑27B заметно сильнее Gemma4‑31B.

Против Claude 4.5 Opus

Claude 4.5 Opus остаётся ориентиром в закрытом сегменте, но Qwen3.6‑27B к нему уже близко на части задач:

SWE-bench Verified: 77,2 vs 80,9 в пользу Claude 4.5 Opus.
SWE-bench Pro: 53,5 vs 57,1.
Terminal-Bench 2.0: 59,3 у обеих моделей.
SkillsBench: 48,2 vs 45,3 — здесь Qwen3.6‑27B чуть выше.
GPQA Diamond: 87,8 у Qwen3.6‑27B vs 87,0 у Claude 4.5 Opus.
SuperGPQA: 66,0 vs 70,6 у Claude 4.5 Opus.

При этом Qwen3.6‑27B — open‑weights: вы можете развернуть её у себя и не отправлять код во внешний облачный сервис. В тексте релиза нет данных по скорости или стоимости запросов, поэтому сравнить экономику с Claude 4.5 Opus напрямую нельзя, но по качеству кодинга разрыв уже не выглядит драматичным.

Установка

Где взять Qwen3.6‑27B

Источник предлагает несколько вариантов:

Qwen Studio — для быстрого интерактивного теста в браузере.
Alibaba Cloud Model Studio API — для продакшн‑интеграции (OpenAI‑ и Anthropic‑совместимые эндпоинты).
Hugging Face и ModelScope — для скачивания весов и self-hosted развёртывания.

Подробная документация по API доступна на сайте Alibaba Cloud Model Studio.

Как запустить

Ниже — ключевые фрагменты конфигурации из оригинального релиза. Они пригодятся, если вы хотите подключить Qwen3.6‑27B к OpenClaw.

Интеграция с OpenClaw

OpenClaw (ранее Moltbot / Clawdbot) — self-hosted open-source кодовый агент. Чтобы подключить Qwen3.6‑27B через Model Studio, отредактируйте файл ~/.openclaw/openclaw.json и добавьте/объедините следующие поля (не затирайте существующие настройки):

{  "models": {    "mode": "merge",    "providers": {      "modelstudio": {        "baseUrl": "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",        "apiKey": "DASHSCOPE_API_KEY",        "api": "openai-completions",        "models": [          {            "id": "qwen3.6-27b",            "name": "qwen3.6-27b",            "reasoning": true,            "input": ["text", "image"],            "contextWindow": 131072,            "maxTokens": 16384          }        ]      }    }  },  "agents": {    "defaults": {      "model": {        "primary": "modelstudio/qwen3.6-27b"      },      "models": {        "modelstudio/qwen3.6-27b": {}      }    }  }}

После этого OpenClaw начнёт использовать Qwen3.6‑27B как основной движок для своих агентных сценариев в терминале.

Qwen Code

Qwen3.6‑27B совместима с Qwen Code — терминальным AI‑агентом, оптимизированным под семейство Qwen. В оригинальном тексте нет детальных команд запуска, но есть важный нюанс:

при первом запуске Qwen Code попросит авторизоваться;
командой /auth можно в любой момент сменить способ аутентификации.

Claude Code

Qwen‑API поддерживает протокол Anthropic, поэтому вы можете подключить Qwen3.6‑27B к инструментам, которые умеют работать с Claude Code, просто указав другой endpoint и API‑ключ. Конкретные примеры конфигурации зависят от вашего окружения и клиента Claude Code.

Итог

Qwen3.6‑27B показывает, что хорошо обученная плотная 27B‑модель способна обойти гораздо более крупные MoE‑решения на задачах, которые важны разработчикам: от исправления багов в реальных репозиториях до многочасовых агентных сессий в терминале.

Если вам нужен сильный кодовый ассистент, которого можно развернуть у себя, работать с длинным контекстом и мультимодальностью, Qwen3.6‑27B — один из самых интересных открытых вариантов в диапазоне около 30B параметров. Для простого чат-бота это избыточно, но для серьёзных dev‑воркфлоу и внутренних агентов — как раз тот класс мощности, вокруг которого сейчас строят новые инструменты.