Дата публикации
ai_products

SANA‑WM: опенсорс‑«мир» на 60 секунд видео 720p с одной картинки и одной GPU

Что нового

NVIDIA показала SANA‑WM — открытый world model‑движок для долгих видео.

Ключевые факты:

  • Размер модели: 2,6 млрд параметров (основной world model).
  • Разрешение и длительность: генерация 60‑секундных видео 720p.
  • Вход: одна исходная картинка + траектория камеры.
  • Выход: минутный ролик с контролируемым движением камеры и богатой динамикой сцены.
  • Железо для инференса: одна NVIDIA H100 для генерации минутного 720p‑видео.
  • Время генерации: дистиллированная версия на RTX 5090 с квантованием NVFP4 денойзит 60‑секундный ролик 720p за 34 секунды.
  • Обучение: 15 дней на 64 H100.
  • Датасет: около 213 тысяч публичных видеоклипов с метрически точной 6‑DoF разметкой камеры.
  • Архитектура: гибридная линейная диффузионная трансформер‑модель (Hybrid Linear Diffusion Transformer).
  • Контроль камеры: точные 6 степеней свободы (6‑DoF) через двухветвевую архитектуру.
  • Двухэтапный пайплайн: базовый генератор + 17‑миллиардный long‑video refiner для повышения качества.
  • Опенсорс: модель и код заявлены как открытые (на странице указано Paper/Code/Models — soon).
  • Производительность: на внутреннем бенчмарке минутных world model‑сцен SANA‑WM даёт точность следования действиям выше, чем прошлые опенсорс‑базлайны, и сопоставимое качество картинки с крупными индустриальными системами вроде LingBot‑World и HY‑WorldPlay, при этом через 36× больший throughput.

Фокус SANA‑WM — не просто «красивый клип», а долгоживущая сцена, где мир остаётся согласованным на протяжении минуты, а камера двигается по заданной траектории.


Как это работает

1. Hybrid Linear Attention: память на минуту вперёд

Главная проблема долгих видео — контекст. Минутный ролик 720p с частотой кадров — это сотни кадров, и обычный self‑attention быстро упирается в память.

В SANA‑WM NVIDIA использует Hybrid Linear Attention:

  1. Frame‑wise Gated DeltaNet — линейный по длине контекста блок, который обрабатывает видео кадр за кадром. Он удерживает глобальное состояние сцены и её динамику, не раздувая вычислительные затраты по квадрату.
  2. Периодический softmax‑attention — классический attention включается не на каждом шаге, а периодически. Он «освежает» глобальные связи между кадрами, чтобы сцена не «расползалась» и не теряла целостность.

Комбинация даёт две вещи:

  • Длинный горизонт: модель «помнит» состояние мира в течение минуты.
  • Контролируемые ресурсы: линейные блоки берут на себя основную работу, а дорогой softmax‑attention включается точечно.

2. Dual‑Branch Camera Control: точная 6‑DoF траектория

SANA‑WM не просто генерирует видео, а строго следует заданной траектории камеры в 6 степенях свободы (позиция + ориентация).

Для этого у модели две ветки:

  1. Глобальная ветка позы (coarse global pose branch):

    • Работает на уровне метрической траектории камеры.
    • Обеспечивает соответствие заданному пути: куда и как должна смещаться камера во времени.
  2. Пиксельно‑выравненная геометрическая ветка (fine pixel‑aligned geometric branch):

    • Уточняет геометрию на уровне пикселей.
    • Следит, чтобы движение камеры выглядело физически правдоподобно: параллакс, масштаб, глубина.

Вместе они дают точное следование 6‑DoF траектории без «плавающей» камеры и странных скачков.

3. Двухэтапный генерационный пайплайн

SANA‑WM генерирует видео в два шага:

  1. Stage 1 — базовый long‑rollout backbone:

    • 2,6‑миллиардный world model создаёт черновой минутный ролик.
    • Уже на этом этапе есть целостный мир, движение и камера.
  2. Stage 2 — 17B long‑video refiner:

    • Отдельная модель на 17 млрд параметров проходит по сгенерированному видео.
    • Улучшает текстуры, плавность движения, качество в конце клипа.
    • Задача — убрать деградацию качества на поздних кадрах и сделать картинку более детальной.

Фактически backbone отвечает за логическую и геометрическую согласованность, а refiner — за визуальный «глянец».

4. Аннотационный пайплайн с метрическим 6‑DoF

Чтобы модель вообще понимала, как должна двигаться камера, NVIDIA собрала робастный пайплайн аннотации:

  • Берут публичные видеоролики.
  • Для каждого кадра извлекают метрически точные 6‑DoF позы камеры.
  • Получается датасет из ≈213 тысяч клипов с спатиотемпорально согласованными action‑лейблами.

Эта разметка нужна, чтобы SANA‑WM научилась:

  • Реалистично реагировать на заданную траекторию камеры.
  • Сохранять стабильную геометрию сцены при долгом движении.

5. Эффективность и дистилляция

SANA‑WM делает ставку на эффективность, а не гигантский масштаб:

  • Обучение: 15 дней на 64 H100 — по меркам больших видео‑моделей это относительно компактно.
  • Инференс: один H100 генерирует минуту 720p за один проход.
  • Дистиллированный вариант:
    • Работает на RTX 5090.
    • Использует NVFP4‑квантование.
    • Денойзит 60‑секундный ролик 720p за 34 секунды.

Плюс: модель опенсорсная, так что её можно адаптировать под свои пайплайны, не упираясь в чёрный ящик.


Что это значит для вас

Для кого это интересно

SANA‑WM — история для тех, кто работает с 3D‑сценами, виртуальными мирами и генеративным видео:

  • студии, которые делают концепт‑арты и превизы для фильмов и сериалов;
  • разработчики игр и интерактивных миров;
  • VR/AR‑команды, которым нужны долгие панорамы и walkthrough‑сцены;
  • исследователи в области world modeling и embodied AI;
  • стартапы, строящие генеративные движки для метавселенных, симуляций и обучения агентов.

Что вы можете делать с SANA‑WM

  1. Минутные панорамы из одной картинки

    • Берёте ключевой кадр сцены (рендер, концепт, фото).
    • Задаёте траекторию камеры: например, пролёт вперёд, обход по дуге, подъём.
    • Получаете 60‑секундный 720p‑ролик, где мир остаётся целостным, а камера движется так, как вы задали.
  2. Тестирование игровых уровней и окружений

    • Конструкторы уровней могут быстро генерировать обзорные проходы по локациям.
    • Полезно для питчинга, прототипирования и быстрой проверки читаемости пространства.
  3. Симуляции для обучения агентов

    • Модель создаёт consistent world на минуту.
    • Это подходит для генерации данных, где агент должен видеть стабильную сцену при движении камеры.
  4. Креативные эксперименты

    • Промпты на странице SANA‑WM показывают, что модель справляется с:
      • статичными POV‑сценами с «живой» средой (снег, туман, насекомые, огоньки, вода);
      • сложной геометрией (каньоны, пещеры, подводные храмы, мегаполисы);
      • стилизованными мирами (магические леса, постапокалипсис, sci‑fi лаборатории, библиотеки с порталами).

Где SANA‑WM особенно полезна

  • Мир важнее сюжета. Если вам нужно показать пространство, глубину и атмосферу, а не сложную последовательность действий.
  • Камера — главный контролируемый параметр. Вы хотите быть уверены, что камера летит ровно по заданной траектории.
  • Длинный горизонт. Нужны не 4–8 секунд, а полноценная минута.
  • Опенсорс и локальный запуск. Вы не хотите зависеть от закрытых API и лицензий крупных платформ.

Где SANA‑WM может не подойти

  • Диалоги, сюжет и сложная актёрская игра. Модель заточена под world modeling и камеру, а не под сценарий с персонажами, говорящими в кадре.
  • Генерация из текста «с нуля» без опоры на картинку и траекторию. Основной сценарий — картинка + камера, а не чистый текст‑to‑video.
  • Суперреалистичный продакшн для финального монтажа. Даже с 17B‑refiner видеоряд всё ещё ближе к генеративному превизу, чем к дорогому продакшн‑футеджу.
  • Слабые GPU. Для комфортной работы нужны современные NVIDIA‑карты. На RTX 5090 дистиллят работает быстро, но на старых GPU придётся сильно ужимать параметры.

Доступность из России

SANA‑WM — опенсорс‑проект от NVIDIA. Код и модели распространяются через GitHub и, вероятно, через их инфраструктуру (NVIDIA NGC и т.п.).

  • Формально VPN может понадобиться, если GitHub или сопутствующие хостинги у вас открываются нестабильно.
  • Лицензия и условия использования зависят от финальной публикации репозитория. Перед коммерческим использованием придётся внимательно прочитать лицензию.

Место на рынке

SANA‑WM конкурирует не с TikTok‑фильтрами, а с крупными world model‑системами и опенсорс‑видео‑моделями.

Сравнение с индустриальными системами

NVIDIA напрямую сравнивает SANA‑WM с:

  • LingBot‑World;
  • HY‑WorldPlay.

По их данным:

  • Качество картинки — на уровне этих крупных промышленных систем.
  • Точность следования действиям / камере — лучше, чем у предыдущих опенсорс‑базлайнов на минутном бенчмарке.
  • Throughput36× выше при сопоставимом визуальном качестве.

Переводя на практику: SANA‑WM генерирует намного больше минутных роликов за то же время, чем сопоставимые по качеству закрытые системы.

Сравнение с опенсорс‑видео‑моделями

Большинство открытых видео‑генераторов сейчас:

  • работают на коротких роликах (обычно до 4–20 секунд);
  • дают ограниченный контроль камеры или вообще не работают с 6‑DoF;
  • часто не тянут 720p на минуту в разумные сроки и на одной GPU.

SANA‑WM закрывает сразу три дыры:

  1. Минутный горизонт «из коробки».
  2. Жёсткий 6‑DoF контроль камеры через dual‑branch архитектуру.
  3. Оптимизированный инференс с дистилляцией под одну потребительскую карту уровня RTX 5090.

Если вы сравниваете SANA‑WM с популярными текст‑to‑video‑демками, главное отличие — фокус на мире и траектории, а не на «клипах по тексту».


Как запустить (ожидаемый сценарий)

На странице проекта пока висят заглушки Paper / Code / Models — soon, но по опыту предыдущих релизов NVIDIA можно ожидать примерно такой сценарий работы:

  1. Установка:

    • Клонирование репозитория с GitHub.
    • Установка зависимостей через conda или pip (PyTorch, CUDA, специфичные библиотеки NVIDIA).
  2. Загрузка моделей:

    • Отдельные веса для:
      • 2,6B world model backbone;
      • 17B long‑video refiner;
      • дистиллированной NVFP4‑версии под RTX 5090.
  3. Запуск инференса:

    • Подготовка входной картинки (например, input.png).
    • Задание траектории камеры в формате, который ожидает модель (скорее всего, список поз 6‑DoF по времени).
    • Команда вида:
python generate_video.py \
  --image input.png \
  --camera_trajectory camera_path.json \
  --output video.mp4 \
  --resolution 1280x720 \
  --duration 60 \
  --use_refiner
  1. Дистиллированная версия:
python generate_video_distilled.py \
  --image input.png \
  --camera_trajectory camera_path.json \
  --output video_720p_60s.mp4 \
  --device cuda:0 \
  --precision nvfp4

Это примерный скелет. Конкретные команды и API стоит смотреть в официальном репозитории SANA‑WM, когда NVIDIA выложит код и модели.


Кому стоит следить за SANA‑WM прямо сейчас

  • Геймдев и VR/AR — как только выйдет код, это один из самых интересных кандидатов на генеративные walkthrough‑видео и прототипы уровней.
  • Студии визуальных эффектов и анимации — как быстрый способ получить минутные превизы сцен с контролем камеры.
  • Исследовательские команды в AI — как референсную реализацию эффективного long‑context world model с гибридным attention и 6‑DoF контролем.

SANA‑WM показывает, что минутные видео 720p с одной GPU — это уже не демо уровня мегакластеров, а вполне рабочий класс инструментов. Для тех, кто строит свои движки миров и симуляции, это важный ориентир по архитектуре и эффективности.


Читайте также

🔗 Источник: https://nvlabs.github.io/Sana/WM/