Дата публикации
ai_products

Prisma: нестандартная модель с оригинальной архитектурой из «гаражного» проекта

Что появилось / что изменилось

Разработчик представил модель Prisma с альтернативной архитектурой, не основанной на GPT, Llama, Mistral или Qwen. По его данным, модель показывает на 25% более высокую эффективность использования данных в обучении по сравнению со «стандартным трансформатором». Она демонстрирует приемлемые результаты на базовых бенчмарках: ARC-E, ARC-C, PIQA, BoolQ и HellaSwag. Модель была обучена на 30 миллиардах токенов из наборов OpenWebText и FineWeb-Edu с использованием одного GPU H100.

Как это работает

Архитектура Prisma основана на трёх ключевых изменениях. Во-первых, используется совместное использование весов в механизме внимания и на выходе, что сокращает количество параметров. Во-вторых, добавлен дополнительный набор весов в блок FFN (Feed-Forward Network), что их увеличивает. В-третьих, применяется Word-Relative Rotary Position Embedding. Самый необычный элемент — новый набор весов W4, который работает как вложенный гейт. Он преобразует стандартную формулу FFN (W2 @ (W1 @ x * silu(W3 @ x))) в W2 @ (W1 @ x * silu(W3 @ x * silu(W4 @ x))).

Что это значит для вас

Prisma — это экспериментальная модель, созданная в рамках «гаражного» проекта. Она интересна для исследователей и разработчиков, которые хотят изучать альтернативные архитектурные подходы в машинном обучении, особенно механизмы повышения эффективности данных. Для практических коммерческих задач или замены крупных языковых моделей, таких как GPT-4o или Claude 3, она не подходит. Модель доступна на Hugging Face под именем y3i12/Prisma для ознакомления и тестирования.

Место на рынке

Prisma не является прямым коммерческим конкурентом ведущих языковых моделей. Она занимает нишу исследовательских и экспериментальных проектов, демонстрируя оригинальные архитектурные решения. Конкретных сравнений по скорости, стоимости или качеству ответов с GPT-4o, Claude или Llama автор не предоставляет, поэтому оценивать её рыночную позицию можно только как академическую или экспериментальную. Основная ценность — в предложенном механизме nested gate и общей структуре, которые могут стимулировать дальнейшие исследования.


Читайте также

Prisma: нестандартная модель с оригинальной архитектурой из «гаражного» проекта — VogueTech | VogueTech