Как энтузиаст с двумя RTX 4090 вывел Qwen2-72B в топ Open LLM Leaderboard без дообучения — VogueTech

Что появилось / что изменилось

Энтузиаст из сообщества r/LocalLLaMA показал странный, но рабочий способ разогнать крупную языковую модель без дообучения. Он взял Qwen2-72B и просто скопировал подряд блок из семи средних слоёв — без изменения весов, без дополнительного обучения, только архитектурный трюк.

Результат: улучшение качества на всех бенчмарках Open LLM Leaderboard и выход на первое место. Автор подчёркивает, что это касалось именно полного набора тестов на этом лидерборде. На момент 2026 года, по его словам, четыре верхние модели в таблице — прямые или косвенные наследники этого подхода.

Вся работа шла на домашней машине с двумя RTX 4090. Никаких A100 в дата-центре, только потребительские видеокарты и аккуратные эксперименты с архитектурой.

Автор готовит к релизу новые варианты крупных моделей с этим приёмом, в том числе специальные RYS‑версии Qwen3.5 27B и Qwen3.5 35A3B. Параллельно он уже гоняет свежие GLM‑4.7, Qwen3.5 и MiniMax M2.5 на двух Nvidia GH200 — о железе он рассказывает в другом посте.

Как это работает

Ключевой эффект даёт не любое копирование слоёв, а строго «кусок схемы» из примерно семи подряд идущих слоёв в середине Qwen2-72B.

Автор проверил несколько вариантов:

дублирование одного слоя — почти нулевой эффект;
дублирование слишком малого числа слоёв — также без заметного выигрыша;
дублирование слишком большого блока — качество начинает падать;
дублирование блока из ~7 средних слоёв — стабильный рост качества на всех тестах лидерборда.

Он делает вывод: предобучение формирует в глубине сети отдельные функциональные «цепочки» слоёв. Эти цепочки работают только целиком. Если вырезать или копировать их по частям, модель не выигрывает. Если аккуратно продублировать всю цепочку, сеть получает больше вычислительных шагов для уже отлаженной функции, и это даёт бонус к качеству без смены весов.

Важно: веса не меняются вообще. Меняется только топология — к исходной архитектуре добавляется ещё один такой же блок из семи слоёв, как будто вы вставили дубликат готового модуля в середину модели.

Что это значит для вас

Если вы работаете с крупными открытыми LLM и готовы руками собирать архитектуры, это даёт ещё один инструмент: можно улучшать качество не только дообучением, но и аккуратной перестройкой слоёв.

Кому это полезно:

Исследователям и ML‑инженерам, которые уже поднимают Qwen‑подобные модели локально и умеют править конфиги архитектуры. Можно экспериментировать с блоками слоёв, не трогая веса.
Командам, которые упираются в потолок качества при фиксированном датасете и бюджете на обучение. Иногда проще добавить вычисление поверх уже выученных «цепочек», чем заново обучать 70+ миллиардов параметров.
Энтузиастам с мощными потребительскими GPU. Автор сделал всё на 2×RTX 4090 в домашнем окружении — значит, подобные эксперименты не требуют облачного бюджета уровня крупной корпорации.

Где этот подход вряд ли поможет:

Если вам нужна компактная, дешёвая в инференсе модель. Дублирование блока слоёв почти неизбежно увеличит время отклика и потребление памяти.
Если вы не готовы разбираться в устройстве конкретной архитектуры. Это не «одна кнопка в интерфейсе», а инженерная работа с конфигами и запуском.
Если вы жёстко привязаны к готовым API вроде GPT‑5 или Claude 4 и не можете запускать модели локально.

Автор обещает выложить код и готовые модели, включая специальные RYS‑версии Qwen3.5 27B и 35A3B. Когда они появятся, эксперимент можно будет повторить без глубокого погружения в архитектуру, но пока это история для тех, кто не боится собирать всё руками.

Место на рынке

История напрямую связана с Open LLM Leaderboard: Qwen2-72B с продублированным блоком из семи средних слоёв заняла там первое место. Позже, по словам автора, четыре верхние строчки таблицы заняли модели, которые так или иначе выросли из этого приёма.

Сравнение с проприетарными системами вроде GPT‑5 или Claude 4 он не приводит. Фокус на открытых моделях и соревновании внутри этого сегмента. Важный нюанс: всё делалось без доступа к внутренним ресурсам крупных компаний и без дообучения на скрытых датасетах.

С инженерной точки зрения это показывает, что даже в 70‑миллиардных моделях ещё есть пространство для архитектурных трюков. Не только новые датасеты и масштабирование параметров, но и работа с уже выученными «цепочками» слоёв может поднимать модель в лидербордах. Для тех, кто ставит ставку на открытые LLM, это повод внимательнее смотреть не только на веса, но и на структуру сети.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также