- Дата публикации
Prisma: нестандартная модель с оригинальной архитектурой из «гаражного» проекта
Что появилось / что изменилось
Разработчик представил модель Prisma с альтернативной архитектурой, не основанной на GPT, Llama, Mistral или Qwen. По его данным, модель показывает на 25% более высокую эффективность использования данных в обучении по сравнению со «стандартным трансформатором». Она демонстрирует приемлемые результаты на базовых бенчмарках: ARC-E, ARC-C, PIQA, BoolQ и HellaSwag. Модель была обучена на 30 миллиардах токенов из наборов OpenWebText и FineWeb-Edu с использованием одного GPU H100.
Как это работает
Архитектура Prisma основана на трёх ключевых изменениях. Во-первых, используется совместное использование весов в механизме внимания и на выходе, что сокращает количество параметров. Во-вторых, добавлен дополнительный набор весов в блок FFN (Feed-Forward Network), что их увеличивает. В-третьих, применяется Word-Relative Rotary Position Embedding. Самый необычный элемент — новый набор весов W4, который работает как вложенный гейт. Он преобразует стандартную формулу FFN (W2 @ (W1 @ x * silu(W3 @ x))) в W2 @ (W1 @ x * silu(W3 @ x * silu(W4 @ x))).
Что это значит для вас
Prisma — это экспериментальная модель, созданная в рамках «гаражного» проекта. Она интересна для исследователей и разработчиков, которые хотят изучать альтернативные архитектурные подходы в машинном обучении, особенно механизмы повышения эффективности данных. Для практических коммерческих задач или замены крупных языковых моделей, таких как GPT-4o или Claude 3, она не подходит. Модель доступна на Hugging Face под именем y3i12/Prisma для ознакомления и тестирования.
Место на рынке
Prisma не является прямым коммерческим конкурентом ведущих языковых моделей. Она занимает нишу исследовательских и экспериментальных проектов, демонстрируя оригинальные архитектурные решения. Конкретных сравнений по скорости, стоимости или качеству ответов с GPT-4o, Claude или Llama автор не предоставляет, поэтому оценивать её рыночную позицию можно только как академическую или экспериментальную. Основная ценность — в предложенном механизме nested gate и общей структуре, которые могут стимулировать дальнейшие исследования.