SANA‑WM: опенсорс‑«мир» на 60 секунд видео 720p с одной картинки и одной GPU — VogueTech

Что нового

NVIDIA показала SANA‑WM — открытый world model‑движок для долгих видео.

Ключевые факты:

Размер модели: 2,6 млрд параметров (основной world model).
Разрешение и длительность: генерация 60‑секундных видео 720p.
Вход: одна исходная картинка + траектория камеры.
Выход: минутный ролик с контролируемым движением камеры и богатой динамикой сцены.
Железо для инференса: одна NVIDIA H100 для генерации минутного 720p‑видео.
Время генерации: дистиллированная версия на RTX 5090 с квантованием NVFP4 денойзит 60‑секундный ролик 720p за 34 секунды.
Обучение: 15 дней на 64 H100.
Датасет: около 213 тысяч публичных видеоклипов с метрически точной 6‑DoF разметкой камеры.
Архитектура: гибридная линейная диффузионная трансформер‑модель (Hybrid Linear Diffusion Transformer).
Контроль камеры: точные 6 степеней свободы (6‑DoF) через двухветвевую архитектуру.
Двухэтапный пайплайн: базовый генератор + 17‑миллиардный long‑video refiner для повышения качества.
Опенсорс: модель и код заявлены как открытые (на странице указано Paper/Code/Models — soon).
Производительность: на внутреннем бенчмарке минутных world model‑сцен SANA‑WM даёт точность следования действиям выше, чем прошлые опенсорс‑базлайны, и сопоставимое качество картинки с крупными индустриальными системами вроде LingBot‑World и HY‑WorldPlay, при этом через 36× больший throughput.

Фокус SANA‑WM — не просто «красивый клип», а долгоживущая сцена, где мир остаётся согласованным на протяжении минуты, а камера двигается по заданной траектории.

Как это работает

1. Hybrid Linear Attention: память на минуту вперёд

Главная проблема долгих видео — контекст. Минутный ролик 720p с частотой кадров — это сотни кадров, и обычный self‑attention быстро упирается в память.

В SANA‑WM NVIDIA использует Hybrid Linear Attention:

Frame‑wise Gated DeltaNet — линейный по длине контекста блок, который обрабатывает видео кадр за кадром. Он удерживает глобальное состояние сцены и её динамику, не раздувая вычислительные затраты по квадрату.
Периодический softmax‑attention — классический attention включается не на каждом шаге, а периодически. Он «освежает» глобальные связи между кадрами, чтобы сцена не «расползалась» и не теряла целостность.

Комбинация даёт две вещи:

Длинный горизонт: модель «помнит» состояние мира в течение минуты.
Контролируемые ресурсы: линейные блоки берут на себя основную работу, а дорогой softmax‑attention включается точечно.

2. Dual‑Branch Camera Control: точная 6‑DoF траектория

SANA‑WM не просто генерирует видео, а строго следует заданной траектории камеры в 6 степенях свободы (позиция + ориентация).

Для этого у модели две ветки:

Глобальная ветка позы (coarse global pose branch):
- Работает на уровне метрической траектории камеры.
- Обеспечивает соответствие заданному пути: куда и как должна смещаться камера во времени.
Пиксельно‑выравненная геометрическая ветка (fine pixel‑aligned geometric branch):
- Уточняет геометрию на уровне пикселей.
- Следит, чтобы движение камеры выглядело физически правдоподобно: параллакс, масштаб, глубина.

Вместе они дают точное следование 6‑DoF траектории без «плавающей» камеры и странных скачков.

3. Двухэтапный генерационный пайплайн

SANA‑WM генерирует видео в два шага:

Stage 1 — базовый long‑rollout backbone:
- 2,6‑миллиардный world model создаёт черновой минутный ролик.
- Уже на этом этапе есть целостный мир, движение и камера.
Stage 2 — 17B long‑video refiner:
- Отдельная модель на 17 млрд параметров проходит по сгенерированному видео.
- Улучшает текстуры, плавность движения, качество в конце клипа.
- Задача — убрать деградацию качества на поздних кадрах и сделать картинку более детальной.

Фактически backbone отвечает за логическую и геометрическую согласованность, а refiner — за визуальный «глянец».

4. Аннотационный пайплайн с метрическим 6‑DoF

Чтобы модель вообще понимала, как должна двигаться камера, NVIDIA собрала робастный пайплайн аннотации:

Берут публичные видеоролики.
Для каждого кадра извлекают метрически точные 6‑DoF позы камеры.
Получается датасет из ≈213 тысяч клипов с спатиотемпорально согласованными action‑лейблами.

Эта разметка нужна, чтобы SANA‑WM научилась:

Реалистично реагировать на заданную траекторию камеры.
Сохранять стабильную геометрию сцены при долгом движении.

5. Эффективность и дистилляция

SANA‑WM делает ставку на эффективность, а не гигантский масштаб:

Обучение: 15 дней на 64 H100 — по меркам больших видео‑моделей это относительно компактно.
Инференс: один H100 генерирует минуту 720p за один проход.
Дистиллированный вариант:
- Работает на RTX 5090.
- Использует NVFP4‑квантование.
- Денойзит 60‑секундный ролик 720p за 34 секунды.

Плюс: модель опенсорсная, так что её можно адаптировать под свои пайплайны, не упираясь в чёрный ящик.

Что это значит для вас

Для кого это интересно

SANA‑WM — история для тех, кто работает с 3D‑сценами, виртуальными мирами и генеративным видео:

студии, которые делают концепт‑арты и превизы для фильмов и сериалов;
разработчики игр и интерактивных миров;
VR/AR‑команды, которым нужны долгие панорамы и walkthrough‑сцены;
исследователи в области world modeling и embodied AI;
стартапы, строящие генеративные движки для метавселенных, симуляций и обучения агентов.

Что вы можете делать с SANA‑WM

Минутные панорамы из одной картинки
- Берёте ключевой кадр сцены (рендер, концепт, фото).
- Задаёте траекторию камеры: например, пролёт вперёд, обход по дуге, подъём.
- Получаете 60‑секундный 720p‑ролик, где мир остаётся целостным, а камера движется так, как вы задали.
Тестирование игровых уровней и окружений
- Конструкторы уровней могут быстро генерировать обзорные проходы по локациям.
- Полезно для питчинга, прототипирования и быстрой проверки читаемости пространства.
Симуляции для обучения агентов
- Модель создаёт consistent world на минуту.
- Это подходит для генерации данных, где агент должен видеть стабильную сцену при движении камеры.
Креативные эксперименты
- Промпты на странице SANA‑WM показывают, что модель справляется с:
  - статичными POV‑сценами с «живой» средой (снег, туман, насекомые, огоньки, вода);
  - сложной геометрией (каньоны, пещеры, подводные храмы, мегаполисы);
  - стилизованными мирами (магические леса, постапокалипсис, sci‑fi лаборатории, библиотеки с порталами).

Где SANA‑WM особенно полезна

Мир важнее сюжета. Если вам нужно показать пространство, глубину и атмосферу, а не сложную последовательность действий.
Камера — главный контролируемый параметр. Вы хотите быть уверены, что камера летит ровно по заданной траектории.
Длинный горизонт. Нужны не 4–8 секунд, а полноценная минута.
Опенсорс и локальный запуск. Вы не хотите зависеть от закрытых API и лицензий крупных платформ.

Где SANA‑WM может не подойти

Диалоги, сюжет и сложная актёрская игра. Модель заточена под world modeling и камеру, а не под сценарий с персонажами, говорящими в кадре.
Генерация из текста «с нуля» без опоры на картинку и траекторию. Основной сценарий — картинка + камера, а не чистый текст‑to‑video.
Суперреалистичный продакшн для финального монтажа. Даже с 17B‑refiner видеоряд всё ещё ближе к генеративному превизу, чем к дорогому продакшн‑футеджу.
Слабые GPU. Для комфортной работы нужны современные NVIDIA‑карты. На RTX 5090 дистиллят работает быстро, но на старых GPU придётся сильно ужимать параметры.

Доступность из России

SANA‑WM — опенсорс‑проект от NVIDIA. Код и модели распространяются через GitHub и, вероятно, через их инфраструктуру (NVIDIA NGC и т.п.).

Формально VPN может понадобиться, если GitHub или сопутствующие хостинги у вас открываются нестабильно.
Лицензия и условия использования зависят от финальной публикации репозитория. Перед коммерческим использованием придётся внимательно прочитать лицензию.

Место на рынке

SANA‑WM конкурирует не с TikTok‑фильтрами, а с крупными world model‑системами и опенсорс‑видео‑моделями.

Сравнение с индустриальными системами

NVIDIA напрямую сравнивает SANA‑WM с:

LingBot‑World;
HY‑WorldPlay.

По их данным:

Качество картинки — на уровне этих крупных промышленных систем.
Точность следования действиям / камере — лучше, чем у предыдущих опенсорс‑базлайнов на минутном бенчмарке.
Throughput — 36× выше при сопоставимом визуальном качестве.

Переводя на практику: SANA‑WM генерирует намного больше минутных роликов за то же время, чем сопоставимые по качеству закрытые системы.

Сравнение с опенсорс‑видео‑моделями

Большинство открытых видео‑генераторов сейчас:

работают на коротких роликах (обычно до 4–20 секунд);
дают ограниченный контроль камеры или вообще не работают с 6‑DoF;
часто не тянут 720p на минуту в разумные сроки и на одной GPU.

SANA‑WM закрывает сразу три дыры:

Минутный горизонт «из коробки».
Жёсткий 6‑DoF контроль камеры через dual‑branch архитектуру.
Оптимизированный инференс с дистилляцией под одну потребительскую карту уровня RTX 5090.

Если вы сравниваете SANA‑WM с популярными текст‑to‑video‑демками, главное отличие — фокус на мире и траектории, а не на «клипах по тексту».

Как запустить (ожидаемый сценарий)

На странице проекта пока висят заглушки Paper / Code / Models — soon, но по опыту предыдущих релизов NVIDIA можно ожидать примерно такой сценарий работы:

Установка:
- Клонирование репозитория с GitHub.
- Установка зависимостей через conda или pip (PyTorch, CUDA, специфичные библиотеки NVIDIA).
Загрузка моделей:
- Отдельные веса для:
  - 2,6B world model backbone;
  - 17B long‑video refiner;
  - дистиллированной NVFP4‑версии под RTX 5090.
Запуск инференса:
- Подготовка входной картинки (например, input.png).
- Задание траектории камеры в формате, который ожидает модель (скорее всего, список поз 6‑DoF по времени).
- Команда вида:

python generate_video.py \
  --image input.png \
  --camera_trajectory camera_path.json \
  --output video.mp4 \
  --resolution 1280x720 \
  --duration 60 \
  --use_refiner

Дистиллированная версия:

python generate_video_distilled.py \
  --image input.png \
  --camera_trajectory camera_path.json \
  --output video_720p_60s.mp4 \
  --device cuda:0 \
  --precision nvfp4

Это примерный скелет. Конкретные команды и API стоит смотреть в официальном репозитории SANA‑WM, когда NVIDIA выложит код и модели.

Кому стоит следить за SANA‑WM прямо сейчас

Геймдев и VR/AR — как только выйдет код, это один из самых интересных кандидатов на генеративные walkthrough‑видео и прототипы уровней.
Студии визуальных эффектов и анимации — как быстрый способ получить минутные превизы сцен с контролем камеры.
Исследовательские команды в AI — как референсную реализацию эффективного long‑context world model с гибридным attention и 6‑DoF контролем.

SANA‑WM показывает, что минутные видео 720p с одной GPU — это уже не демо уровня мегакластеров, а вполне рабочий класс инструментов. Для тех, кто строит свои движки миров и симуляции, это важный ориентир по архитектуре и эффективности.