- Дата публикации
SANA‑WM: опенсорс‑«мир» на 60 секунд видео 720p с одной картинки и одной GPU
Что нового
NVIDIA показала SANA‑WM — открытый world model‑движок для долгих видео.
Ключевые факты:
- Размер модели: 2,6 млрд параметров (основной world model).
- Разрешение и длительность: генерация 60‑секундных видео 720p.
- Вход: одна исходная картинка + траектория камеры.
- Выход: минутный ролик с контролируемым движением камеры и богатой динамикой сцены.
- Железо для инференса: одна NVIDIA H100 для генерации минутного 720p‑видео.
- Время генерации: дистиллированная версия на RTX 5090 с квантованием NVFP4 денойзит 60‑секундный ролик 720p за 34 секунды.
- Обучение: 15 дней на 64 H100.
- Датасет: около 213 тысяч публичных видеоклипов с метрически точной 6‑DoF разметкой камеры.
- Архитектура: гибридная линейная диффузионная трансформер‑модель (Hybrid Linear Diffusion Transformer).
- Контроль камеры: точные 6 степеней свободы (6‑DoF) через двухветвевую архитектуру.
- Двухэтапный пайплайн: базовый генератор + 17‑миллиардный long‑video refiner для повышения качества.
- Опенсорс: модель и код заявлены как открытые (на странице указано Paper/Code/Models — soon).
- Производительность: на внутреннем бенчмарке минутных world model‑сцен SANA‑WM даёт точность следования действиям выше, чем прошлые опенсорс‑базлайны, и сопоставимое качество картинки с крупными индустриальными системами вроде LingBot‑World и HY‑WorldPlay, при этом через 36× больший throughput.
Фокус SANA‑WM — не просто «красивый клип», а долгоживущая сцена, где мир остаётся согласованным на протяжении минуты, а камера двигается по заданной траектории.
Как это работает
1. Hybrid Linear Attention: память на минуту вперёд
Главная проблема долгих видео — контекст. Минутный ролик 720p с частотой кадров — это сотни кадров, и обычный self‑attention быстро упирается в память.
В SANA‑WM NVIDIA использует Hybrid Linear Attention:
- Frame‑wise Gated DeltaNet — линейный по длине контекста блок, который обрабатывает видео кадр за кадром. Он удерживает глобальное состояние сцены и её динамику, не раздувая вычислительные затраты по квадрату.
- Периодический softmax‑attention — классический attention включается не на каждом шаге, а периодически. Он «освежает» глобальные связи между кадрами, чтобы сцена не «расползалась» и не теряла целостность.
Комбинация даёт две вещи:
- Длинный горизонт: модель «помнит» состояние мира в течение минуты.
- Контролируемые ресурсы: линейные блоки берут на себя основную работу, а дорогой softmax‑attention включается точечно.
2. Dual‑Branch Camera Control: точная 6‑DoF траектория
SANA‑WM не просто генерирует видео, а строго следует заданной траектории камеры в 6 степенях свободы (позиция + ориентация).
Для этого у модели две ветки:
-
Глобальная ветка позы (coarse global pose branch):
- Работает на уровне метрической траектории камеры.
- Обеспечивает соответствие заданному пути: куда и как должна смещаться камера во времени.
-
Пиксельно‑выравненная геометрическая ветка (fine pixel‑aligned geometric branch):
- Уточняет геометрию на уровне пикселей.
- Следит, чтобы движение камеры выглядело физически правдоподобно: параллакс, масштаб, глубина.
Вместе они дают точное следование 6‑DoF траектории без «плавающей» камеры и странных скачков.
3. Двухэтапный генерационный пайплайн
SANA‑WM генерирует видео в два шага:
-
Stage 1 — базовый long‑rollout backbone:
- 2,6‑миллиардный world model создаёт черновой минутный ролик.
- Уже на этом этапе есть целостный мир, движение и камера.
-
Stage 2 — 17B long‑video refiner:
- Отдельная модель на 17 млрд параметров проходит по сгенерированному видео.
- Улучшает текстуры, плавность движения, качество в конце клипа.
- Задача — убрать деградацию качества на поздних кадрах и сделать картинку более детальной.
Фактически backbone отвечает за логическую и геометрическую согласованность, а refiner — за визуальный «глянец».
4. Аннотационный пайплайн с метрическим 6‑DoF
Чтобы модель вообще понимала, как должна двигаться камера, NVIDIA собрала робастный пайплайн аннотации:
- Берут публичные видеоролики.
- Для каждого кадра извлекают метрически точные 6‑DoF позы камеры.
- Получается датасет из ≈213 тысяч клипов с спатиотемпорально согласованными action‑лейблами.
Эта разметка нужна, чтобы SANA‑WM научилась:
- Реалистично реагировать на заданную траекторию камеры.
- Сохранять стабильную геометрию сцены при долгом движении.
5. Эффективность и дистилляция
SANA‑WM делает ставку на эффективность, а не гигантский масштаб:
- Обучение: 15 дней на 64 H100 — по меркам больших видео‑моделей это относительно компактно.
- Инференс: один H100 генерирует минуту 720p за один проход.
- Дистиллированный вариант:
- Работает на RTX 5090.
- Использует NVFP4‑квантование.
- Денойзит 60‑секундный ролик 720p за 34 секунды.
Плюс: модель опенсорсная, так что её можно адаптировать под свои пайплайны, не упираясь в чёрный ящик.
Что это значит для вас
Для кого это интересно
SANA‑WM — история для тех, кто работает с 3D‑сценами, виртуальными мирами и генеративным видео:
- студии, которые делают концепт‑арты и превизы для фильмов и сериалов;
- разработчики игр и интерактивных миров;
- VR/AR‑команды, которым нужны долгие панорамы и walkthrough‑сцены;
- исследователи в области world modeling и embodied AI;
- стартапы, строящие генеративные движки для метавселенных, симуляций и обучения агентов.
Что вы можете делать с SANA‑WM
-
Минутные панорамы из одной картинки
- Берёте ключевой кадр сцены (рендер, концепт, фото).
- Задаёте траекторию камеры: например, пролёт вперёд, обход по дуге, подъём.
- Получаете 60‑секундный 720p‑ролик, где мир остаётся целостным, а камера движется так, как вы задали.
-
Тестирование игровых уровней и окружений
- Конструкторы уровней могут быстро генерировать обзорные проходы по локациям.
- Полезно для питчинга, прототипирования и быстрой проверки читаемости пространства.
-
Симуляции для обучения агентов
- Модель создаёт consistent world на минуту.
- Это подходит для генерации данных, где агент должен видеть стабильную сцену при движении камеры.
-
Креативные эксперименты
- Промпты на странице SANA‑WM показывают, что модель справляется с:
- статичными POV‑сценами с «живой» средой (снег, туман, насекомые, огоньки, вода);
- сложной геометрией (каньоны, пещеры, подводные храмы, мегаполисы);
- стилизованными мирами (магические леса, постапокалипсис, sci‑fi лаборатории, библиотеки с порталами).
- Промпты на странице SANA‑WM показывают, что модель справляется с:
Где SANA‑WM особенно полезна
- Мир важнее сюжета. Если вам нужно показать пространство, глубину и атмосферу, а не сложную последовательность действий.
- Камера — главный контролируемый параметр. Вы хотите быть уверены, что камера летит ровно по заданной траектории.
- Длинный горизонт. Нужны не 4–8 секунд, а полноценная минута.
- Опенсорс и локальный запуск. Вы не хотите зависеть от закрытых API и лицензий крупных платформ.
Где SANA‑WM может не подойти
- Диалоги, сюжет и сложная актёрская игра. Модель заточена под world modeling и камеру, а не под сценарий с персонажами, говорящими в кадре.
- Генерация из текста «с нуля» без опоры на картинку и траекторию. Основной сценарий — картинка + камера, а не чистый текст‑to‑video.
- Суперреалистичный продакшн для финального монтажа. Даже с 17B‑refiner видеоряд всё ещё ближе к генеративному превизу, чем к дорогому продакшн‑футеджу.
- Слабые GPU. Для комфортной работы нужны современные NVIDIA‑карты. На RTX 5090 дистиллят работает быстро, но на старых GPU придётся сильно ужимать параметры.
Доступность из России
SANA‑WM — опенсорс‑проект от NVIDIA. Код и модели распространяются через GitHub и, вероятно, через их инфраструктуру (NVIDIA NGC и т.п.).
- Формально VPN может понадобиться, если GitHub или сопутствующие хостинги у вас открываются нестабильно.
- Лицензия и условия использования зависят от финальной публикации репозитория. Перед коммерческим использованием придётся внимательно прочитать лицензию.
Место на рынке
SANA‑WM конкурирует не с TikTok‑фильтрами, а с крупными world model‑системами и опенсорс‑видео‑моделями.
Сравнение с индустриальными системами
NVIDIA напрямую сравнивает SANA‑WM с:
- LingBot‑World;
- HY‑WorldPlay.
По их данным:
- Качество картинки — на уровне этих крупных промышленных систем.
- Точность следования действиям / камере — лучше, чем у предыдущих опенсорс‑базлайнов на минутном бенчмарке.
- Throughput — 36× выше при сопоставимом визуальном качестве.
Переводя на практику: SANA‑WM генерирует намного больше минутных роликов за то же время, чем сопоставимые по качеству закрытые системы.
Сравнение с опенсорс‑видео‑моделями
Большинство открытых видео‑генераторов сейчас:
- работают на коротких роликах (обычно до 4–20 секунд);
- дают ограниченный контроль камеры или вообще не работают с 6‑DoF;
- часто не тянут 720p на минуту в разумные сроки и на одной GPU.
SANA‑WM закрывает сразу три дыры:
- Минутный горизонт «из коробки».
- Жёсткий 6‑DoF контроль камеры через dual‑branch архитектуру.
- Оптимизированный инференс с дистилляцией под одну потребительскую карту уровня RTX 5090.
Если вы сравниваете SANA‑WM с популярными текст‑to‑video‑демками, главное отличие — фокус на мире и траектории, а не на «клипах по тексту».
Как запустить (ожидаемый сценарий)
На странице проекта пока висят заглушки Paper / Code / Models — soon, но по опыту предыдущих релизов NVIDIA можно ожидать примерно такой сценарий работы:
-
Установка:
- Клонирование репозитория с GitHub.
- Установка зависимостей через
condaилиpip(PyTorch, CUDA, специфичные библиотеки NVIDIA).
-
Загрузка моделей:
- Отдельные веса для:
- 2,6B world model backbone;
- 17B long‑video refiner;
- дистиллированной NVFP4‑версии под RTX 5090.
- Отдельные веса для:
-
Запуск инференса:
- Подготовка входной картинки (например,
input.png). - Задание траектории камеры в формате, который ожидает модель (скорее всего, список поз 6‑DoF по времени).
- Команда вида:
- Подготовка входной картинки (например,
python generate_video.py \
--image input.png \
--camera_trajectory camera_path.json \
--output video.mp4 \
--resolution 1280x720 \
--duration 60 \
--use_refiner
- Дистиллированная версия:
python generate_video_distilled.py \
--image input.png \
--camera_trajectory camera_path.json \
--output video_720p_60s.mp4 \
--device cuda:0 \
--precision nvfp4
Это примерный скелет. Конкретные команды и API стоит смотреть в официальном репозитории SANA‑WM, когда NVIDIA выложит код и модели.
Кому стоит следить за SANA‑WM прямо сейчас
- Геймдев и VR/AR — как только выйдет код, это один из самых интересных кандидатов на генеративные walkthrough‑видео и прототипы уровней.
- Студии визуальных эффектов и анимации — как быстрый способ получить минутные превизы сцен с контролем камеры.
- Исследовательские команды в AI — как референсную реализацию эффективного long‑context world model с гибридным attention и 6‑DoF контролем.
SANA‑WM показывает, что минутные видео 720p с одной GPU — это уже не демо уровня мегакластеров, а вполне рабочий класс инструментов. Для тех, кто строит свои движки миров и симуляции, это важный ориентир по архитектуре и эффективности.