- Дата публикации
htmLLM-50M: Может ли 50-миллионная модель писать HTML-код?
Что появилось / что изменилось
Энтузиаст LH-Tech-AI представил htmLLM-v1 — сверхспециализированную языковую модель для генерации HTML и CSS. Её ключевые характеристики: 50 миллионов параметров, контекст в 512 токенов. Модель обучена на 150 миллионах токенов из датасета The Stack-Smol HTML, доработанного для обучения с учителем. Вторая версия модели, htmLLM-v2 на 124 миллиона параметров, сейчас находится в процессе обучения. У неё будет увеличенный контекст — 1024 токена и архитектура, сопоставимая с GPT-2 Small (12 слоёв, 12 голов внимания).
Как это работает
htmLLM построена на архитектуре nanoGPT от Андрея Карпати. Это простая, но эффективная реализация трансформера. Модель обучалась на смеси сырых данных HTML/CSS и инструкций, подготовленных в формате Alpaca. Это позволяет ей не просто предсказывать следующий токен, но и в некоторой степени следовать указаниям. Весь процесс обучения прошёл на одном графическом процессоре T4 в среде Kaggle, что демонстрирует низкий порог входа для экспериментов.
Что это значит для вас
htmLLM-v1 — это «карманный кодер», который может быстро сгенерировать заготовки для простых веб-форм, семантических тегов или базовых стилей. Её главное преимущество — размер. Модель настолько мала, что её можно запустить на практически любом оборудовании, даже на слабом ноутбуке. Используйте её для прототипирования простых элементов интерфейса или как образовательный инструмент. Однако не ждите от неё чудес. Как признаёт автор, модель слишком мала для сложных задач вроде верстки на Bootstrap и может «галлюцинировать», выдавая некорректный CSS или игнорируя часть инструкции. Пример в исходном посте показывает, что на сложный промпт о создании карточки входа модель выдала бессвязную смесь тегов и комментариев. Для серьёзной работы в веб-разработке эта модель не подходит. Веса и код доступны на Hugging Face, сервис не требует VPN для использования в России.
Место на рынке
htmLLM — это исследовательский проект на стыке двух трендов: создания крошечных специализированных моделей и их обучения на узких доменах. Прямых конкурентов у неё нет, так как крупные компании вроде OpenAI или Anthropic не выпускают модели такого размера. Её нельзя сравнивать по качеству с GPT-4o или Claude 3 — они на порядки больше и мощнее. Уникальность htmLLM именно в её минимализме и фокусе на одной задаче. Она показывает, что даже при 50 миллионах параметров модель может усвоить базовые паттерны разметки, но для практического применения потребуются более крупные версии, такие как обучающаяся сейчас htmLLM-v2.