Что придёт после трансформеров: какие архитектуры могут обогнать GPT и Llama — VogueTech

Что открыли

Пост на r/MachineLearning поднимает простой, но болезненный вопрос: какие архитектуры, масштабированные до 100+ млрд или даже 1 триллиона параметров, реально могут обогнать коммерческие трансформеры вроде GPT или Llama?

Автор смотрит на результаты маленьких моделей — около 7 млрд параметров — и видит, что некоторые нетрансформерные подходы уже показывают сравнимое или лучшее качество. В ход идут гибриды вроде Mamba+Transformer, различные SSM (state space models), HRM и TRM, нейросимвольные системы, KAN.

Ключевой факт из обсуждения: по теории и по экспериментам на небольших масштабах есть архитектуры, которые выглядят перспективнее классических трансформеров. Но никто не знает, что будет, если довести их до 100B+ или 1T параметров — таких экспериментов просто не проводят.

Как исследовали

Это не академическая статья, а коллективный «разбор полётов» на Reddit. Исследователи и инженеры обсуждают опубликованные работы и небольшие открытые модели.

Фокус — на архитектурах, которые уже показали себя на уровнях около 7B параметров и меньше. На таких размерах можно экспериментировать: это по силам университетским лабораториям и стартапам.

При этом крупные индустриальные игроки — OpenAI, Google DeepMind, Meta, Anthropic — масштабируют в основном трансформеры. Теоретические работы и эксперименты с Mamba, SSM, HRM, KAN часто опережают коммерческую практику на 2–3 года: идеи есть, а вот бюджета, чтобы обучить условный «Mamba-100B», нет.

Автор честно признаёт: многие архитектуры вроде HRM и TRM вообще плохо масштабируются. Их можно обучить в небольшом размере, но попытка разогнать до сотен миллиардов параметров ломает обучение или делает его бессмысленно дорогим.

Что это меняет на практике

Для индустрии сейчас есть жёсткий фильтр: масштабируется ли архитектура хоть до 100B параметров и выше. Если нет — она остаётся академическим экспериментом.

Перспективные кандидаты:

гибриды трансформеров с SSM (например, Mamba+Transformer);
разные варианты SSM, которые на маленьких моделях уже догоняют или обгоняют чистые трансформеры по качеству при меньших вычислениях;
нейросимвольные подходы и KAN, которые могут улучшить логические задачи и интерпретируемость.

Но пока никто не показал публично модель уровня 100B+ на этих архитектурах, сравнимую по качеству с условным GPT-5 или следующими поколениями Llama. Главная проблема — стоимость эксперимента: проверить гипотезу стоит сотни миллионов долларов.

Поэтому коммерческие продукты ещё долго будут крутиться вокруг трансформеров и их модификаций. Новые архитектуры, даже если они лучше по теории, попадут в продукты с лагом в те же 2–3 года, когда:

появятся убедительные кривые масштабирования;
кто-то рискнёт вложиться в обучение «монстра» на новой архитектуре.

Что это значит для вас

Если вы пользуетесь готовыми моделями — от GPT до открытых Llama и Mistral — в ближайшие годы всё равно будете иметь дело в основном с трансформерами. Улучшения придут через:

более умные миксы архитектур (вроде добавления SSM-блоков);
трюки с обучением и сжатие моделей;
лучшее масштабирование уже знакомых семейств.

Если вы исследователь или ML‑инженер, вывод другой. Смысла ждать «идеальную» нетрансформерную архитектуру нет. Важно смотреть на две вещи:

Кривые масштабирования. Если модель на 1B → 7B растёт по качеству предсказуемо, есть шанс, что она потянет и 70B. Если качество быстро насыщается — вряд ли.
Сложность обучения. Если уже на 7B модель капризна, требует тонкой настройки оптимизатора и расписания, то на 100B она, скорее всего, станет неуправляемой.

Главный ответ на вопрос автора: надёжного способа заранее предсказать поведение архитектуры на 100B+ нет. Маленькие модели дают намек, но абсолютную уверенность даёт только реальный запуск большой версии — а он почти всегда доступен лишь крупнейшим игрокам.

Поэтому сейчас разумная стратегия — изучать новые архитектуры на маленьких масштабах, следить за их кривыми масштабирования и быть готовым быстро переучиться, когда кто‑то наконец выкатит первый по‑настоящему крупный SSM‑ или KAN‑монолит, который сможет потеснить трансформеры в коммерческих продуктах.