Дата публикации
ai_products

Экспериментальный Fat Fish: кто и зачем увеличил и обрезал Mistral Nemo

Что появилось / что изменилось

На платформе Hugging Face появилась модель Fat Fish — экспериментальный апскейл Mistral-Nemo-Base-2407 от компании Mistral AI. Автор, скрывающийся под ником SicariusSicariiStuff, потратил на проект около 1000 долларов. Основные архитектурные изменения по сравнению с базовой версией:

  • Количество слоев выросло с 32 до 56.
  • Число голов внимания увеличено с 32 до 48.
  • Количество ключевых/ценностных голов (KV heads) — 12 вместо 8. Модель обучалась на 3 миллиардах токенов. В данные вошли: 50% человеческих текстов, 20% фан-лора по играм (Morrowind, Fallout, Kenshi), 16% корпуса на современном иврите, 4% синтетических инструкций и 10% прочих материалов.

Как это работает

Это не обычный мердж моделей через mergekit. Автор провел и апскейл (увеличение), и прунинг (обрезку). Внутренний размер промежуточного слоя (intermediate size) сократился с 14336 до 12608. Ни один слой не был обнулен, что часто делают в простых мерджах, приводящих к нечитаемому выводу. Ключевое изменение — 12 KV heads вместо стандартных 8 или 16. Это компромисс: теоретически больше голов улучшает работу с контекстом, но 16 голов дали бы заметную нагрузку на память и вычисления. На практике 12 голов показали стабильность при дообучении, инференсе и квантовании.

Что это значит для вас

Fat Fish — это сырая базовая модель. Использовать её «как есть» для чата или генерации текстов не стоит. Её предназначение — служить основой для дальнейшего дообучения и тонкой настройки под конкретные задачи. Автор рекомендует сначала провести анализ сходства слоев и заморозить наименее похожие, а остальные — дообучить. Модель знает новые данные и языки (иврит), но её безопасность не гарантирована. Она доступна для скачивания на Hugging Face, ограничений по региону нет.

Место на рынке

Проект — реакция на тренд в opensource-сообществе. Крупные компании вроде Mistral AI и Meta все чаще выпускают не плотные (dense) модели, а смеси экспертов (MoE). Новых качественных плотных базовых моделей становится меньше. При этом, по мнению автора и многих энтузиастов, старый Mistral Nemo (2407) лучше поддается тонкой настройке, чем новые плотные модели Mistral того же размера (например, 14B). Fat Fish — попытка вручную создать современную плотную базу, расширив и модифицировав проверенную архитектуру. Это нишевый инструмент для исследователей и инженеров, готовых экспериментировать.


Читайте также

Экспериментальный Fat Fish: кто и зачем увеличил и обрезал Mistral Nemo — VogueTech | VogueTech