Дата публикации
ai_products

Simple Diffusion: диффузионная модель, которая помещается в обычную видеокарту

Что появилось / что изменилось

AiArtLab выкатили альфа-версию Simple Diffusion (sdxs-1b) — компактную диффузионную модель генерации изображений с открытым кодом и лицензией Apache-2.0. Вес основного чекпойнта около 200 МБ при 16× сжатии в VAE, что заметно меньше, чем у многих популярных диффузионных моделей сопоставимого качества.

Ключевые цифры и параметры:

  • Архитектура ядра: UNet примерно на 1,6 млрд параметров (примерно в 2 раза больше, чем у Stable Diffusion 1.5).
  • Текстовый энкодер: Qwen3.5–2B, мультиязычный и мультимодальный.
  • VAE: 32‑канальный латент, энкодер 8×, декодер 16×.
  • Эффективное сжатие: 16× по сторонам (по площади в 256 раз), при этом VAE весит около 200 МБ.
  • Обучение VAE до асимметричной 32‑канальной версии заняло ~2 суток на одной GPU.
  • Диапазон рабочих разрешений картинок при подготовке данных: от 768 до 1408 пикселей (шаг 64), обучение — на вдвое меньшем разрешении.
  • При инференсе VAE работает как встроенный 2× апскейлер: генерация идет в 512–768 пикселей, на выходе — 1024–1536 без отдельного апскейлера.

По качеству сжатия VAE sdxs‑1b показывает:

  • Для 16× масштаба (по сторонам):
    • MSE = 2.655e-04
    • PSNR = 37.83
    • LPIPS = 0.026
    • Edge = 0.066
    • KL = 2.170

Для сравнения, Wan2.2‑TI2V‑5B (2 ГБ, тоже 16×):

  • MSE = 7.034e-04
  • PSNR = 34.65
  • LPIPS = 0.050
  • Edge = 0.115
  • KL = 9.429

А среди 8× VAE, взятых для ориентира:

  • SDXL 8×: MSE = 1.925e-03, PSNR = 30.00, LPIPS = 0.123
  • FLUX.1 8×: MSE = 4.098e-04, PSNR = 36.06, LPIPS = 0.033
  • FLUX.2 8×: MSE = 2.425e-04, PSNR = 38.33, LPIPS = 0.023

sdxs‑1b по PSNR и LPIPS для 16× сжатия выходит почти на уровень FLUX.2 при 8×, при этом сама модель компактнее.

Как это работает

Команда AiArtLab шла к текущей версии почти полтора года. Старт был с экспериментов с линейными трансформерами Sana, но серия неудачных попыток дообучения и перепроектирования привела к решению собрать всё с нуля вокруг классического UNet.

Дальше путь разделился: один из разработчиков ушёл в сторону DiT‑архитектур и быстрых автоэнкодеров, второй — в эволюцию UNet. За полгода перебрали множество вариантов, которые либо «схлопывались» при обучении, либо плохо держали анатомию, либо теряли мелкие детали.

С августа по сентябрь 2025 года автор сфокусировался на VAE и в итоге собрал свою версию, вдохновлённую Flux.2. Базовый VAE Flux.2 на 128 каналах оказался слишком тяжёлым для небольшой модели, поэтому его конвертировали в 32‑канальный вариант и дообучили в асимметричный VAE (энкодер 8×, декодер 16×). Дообучение шло с пятью одновременными таргетами и собственной нормализацией, чтобы избежать размытия деталей.

Первая версия sdxs‑0.8 (0,8 млрд параметров) с UNet в стиле SD1.5, Long CLIP и 16‑канальным Simple VAE показала, что небольшой модели уже хватает для аниме‑стиля. Но команда целилась в фотореализм, поэтому продолжила наращивать архитектуру до 1,6 млрд параметров.

В январе–феврале 2026 года автор по очереди проверил ключевые идеи SDXL. На практике каждая из пяти гипотез из SDXL давала либо деградацию качества, либо замедление при спорном выигрыше. В итоге архитектура вернулась ближе к Stable Diffusion 1.5: относительно немного блоков, равномерно распределённых по глубине, что помогает одновременно держать анатомию и детали.

Текстовый энкодер тоже прошёл через серию тестов: CLIP, LongCLIP, SigLIP, MexMaSigLip, Qwen‑0.6B. В финале остановились на Qwen3.5–2B. Он даёт качество почти на уровне LongCLIP, но добавляет мультиязычность, мультимодальность и потенциальную интеграцию с LLM‑сценариями (рефайнер, чат, анализ изображений). Эмбеддинги берут с предпоследнего слоя, чтобы лучше вытаскивать структуру сцены.

Данные для альфа‑обучения — это 1–2 млн изображений из открытых датасетов Midjourney, Nijourney и похожих. В основном это рисунки и иллюстрации, с небольшой долей фотографий. Подписи бывают двух типов: короткие danbooru‑теги и естественные описания до 250 токенов. Перед обучением изображения масштабируются в диапазоне 768–1408 пикселей, но сама модель учится на вдвое меньшем разрешении, что экономит ресурсы.

Ключевой трюк — асимметричный VAE. Он сжимает картинку в 8 раз по сторонам, а декодер разворачивает её в 16 раз. При генерации модель работает в латентном пространстве для «меньшего» разрешения, а на выходе VAE сразу даёт картинку в два раза больше. Это экономит видеопамять и ускоряет инференс: генерация в 512 пикселях всегда сильно быстрее, чем в 1024, а итоговое качество остаётся сопоставимым.

Что это значит для вас

Simple Diffusion нацелен на тех, кто хочет обучать или дообучать свою диффузионную модель дома или в небольшой студии без фермы GPU.

Где sdxs‑1b особенно уместен:

  • Художники и иллюстраторы. Модель изначально тренировалась на аниме и иллюстрациях, поэтому она уверенно держит стилизованный контент. Можно дообучить под свой стиль, не тратя недели на обучение.
  • Малые студии и инди‑разработчики. 1,6 млрд параметров UNet и компактный VAE позволяют запускать инференс и эксперименты с дообучением на «обычных» видеокартах. Если у вас есть одна современная GPU, проект уже реалистичен.
  • Ресёрч и прототипирование. Открытый код подготовки данных и обучения позволяет быстро проверять архитектурные гипотезы: менять UNet, VAE, текстовый энкодер, не переписывая всё с нуля.
  • Мультиязычные промпты. Qwen3.5–2B даёт возможность писать запросы не только по‑английски. Это удобно, если команда работает на русском или смешивает языки в описаниях.

Где у модели есть ограничения:

  • Обучающая выборка пока небольшая — 1–2 млн изображений. Для сложного фотореализма и редких сюжетов потребуется дообучение или более широкие датасеты.
  • Альфа‑статус. Это рабочий эксперимент, а не «завершённый продукт»: возможны артефакты, нестабильное качество на отдельных жанрах и изменение интерфейсов в будущих версиях.
  • Модель ориентирована на локальный запуск. Это плюс для контроля и приватности, но минус, если вы ждёте готовый облачный сервис «из коробки».

Скачать sdxs‑1b и код можно на Hugging Face: https://huggingface.co/AiArtLab/sdxs-1b. Доступ не привязан к конкретному региону, но если у вас есть ограничения по доступу к Hugging Face, может понадобиться VPN.

Место на рынке

По архитектуре sdxs‑1b ближе к Stable Diffusion 1.5, чем к SDXL или Flux.2, но использует идеи из Flux‑линейки в VAE. UNet на 1,6 млрд параметров крупнее, чем у SD1.5, но меньше, чем у тяжёлых коммерческих моделей. При этом VAE с 16× сжатием и весом около 200 МБ даёт качество, сопоставимое с FLUX.2 VAE при 8× сжатии по PSNR и LPIPS.

Если сравнивать только VAE по цифрам:

  • FLUX.2 8×: PSNR 38.33, LPIPS 0.023.
  • sdxs‑1b 16×: PSNR 37.83, LPIPS 0.026.

То есть sdxs‑1b держит качество близко к FLUX.2, но при более сильном сжатии и меньшем размере.

Wan2.2‑TI2V‑5B при том же 16× масштабе показывает PSNR 34.65 и LPIPS 0.050 при размере около 2 ГБ. sdxs‑1b достигает PSNR 37.83 и LPIPS 0.026 при ~200 МБ. Это делает Simple Diffusion интересным кандидатом там, где важны и качество, и компактность.

По сравнению с SDXL команда AiArtLab сознательно отказалась от ряда архитектурных усложнений. Тесты показали замедление инференса и неубедительный прирост качества для небольшой модели, поэтому финальная версия ближе к «классике» SD1.5. Плюс — проще запуск, меньше требований к железу, понятное поведение. Минус — без дообучения sdxs‑1b пока не претендует на те же возможности, что крупные коммерческие модели, обученные на огромных датасетах.

Для рынка это ещё один шаг в сторону компактных, открытых генераторов, которые можно реально крутить на одной видеокарте и настраивать под свои задачи без доступа к инфраструктуре крупных AI‑игроков.


Читайте также

Simple Diffusion: диффузионная модель, которая помещается в обычную видеокарту — VogueTech | VogueTech