STARFlow‑V от Apple: новая архитектура для генерации видео без диффузии — VogueTech

Что открыли

Apple Machine Learning Research вместе с исследователями из University of Pennsylvania и University of Illinois Urbana–Champaign представили STARFlow‑V — генеративную модель для видео, построенную не на диффузии, а на normalizing flows (NF).

Главный результат: команда показала, что normalizing flows могут генерировать видео с высокой визуальной детализацией и устойчивой временной связностью, сопоставимой с современными диффузионными системами. При этом STARFlow‑V:

обучается end‑to‑end по правдоподобию (likelihood), без сложных трюков с шумом;
умеет нативно считать плотность вероятности сгенерированного видео;
работает автоагрессивно (кадры зависят от прошлого), но снижает накопление ошибок во времени;
поддерживает три режима: text‑to‑video, image‑to‑video и video‑to‑video на одной и той же архитектуре.

Исследователи отмечают, что STARFlow‑V показывает "strong visual fidelity and temporal consistency" при "practical sampling throughput" по сравнению с диффузионными базовыми моделями. То есть качество и плавность движения находятся на уровне, который уже можно сравнивать с текущими стандартами, а скорость генерации — достаточно высокая для практического использования.

Как исследовали

Работу представили на CVPR — одной из ключевых конференций по компьютерному зрению. Публикация датирована апрелем 2026 года.

Над STARFlow‑V работали:

Jiatao Gu (University of Pennsylvania);
Ying Shen (University of Illinois Urbana–Champaign, работа выполнена во время стажировки в Apple);
Tianrong Chen;
Laurent Dinh;
Yuyang Wang;
Miguel Ángel Bautista;
David Berthelot;
Josh Susskind;
Shuangfei Zhai.

STARFlow‑V опирается на предыдущую работу Apple — STARFlow, представленную на NeurIPS в июне 2025 года. Там команда показала, как масштабировать normalizing flows для высококачественной генерации изображений с помощью архитектуры Transformer Autoregressive Flow (TARFlow).

В новой работе исследователи переносят идеи STARFlow с картинок на видео. Для этого они:

перешли от чисто пространственного латентного пространства к пространственно‑временному (spatiotemporal latent space);
ввели глобально‑локальную архитектуру, где:
- глобальное латентное пространство отвечает за причинные зависимости по времени;
- локальные латенты внутри кадра сохраняют насыщенные пространственные детали;
обучили модель end‑to‑end как normalizing flow, то есть с точным вычислением правдоподобия данных.

Отдельное внимание команда уделила двум проблемам: накоплению ошибок в автоагрессивных моделях и скорости сэмплирования. Для этого они предложили два технических решения — flow‑score matching и video‑aware Jacobi iteration.

Что это меняет на практике

До STARFlow‑V почти все серьёзные системы генерации видео опирались на диффузионные модели. Они умеют выдавать впечатляющие ролики, но имеют ряд минусов:

сложные многошаговые схемы сэмплирования;
ограниченный прямой контроль над правдоподобием;
накопление ошибок в автоагрессивных настройках, когда видео генерируется по частям.

STARFlow‑V предлагает другую линию развития:

End‑to‑end обучение по правдоподобию. Normalizing flows дают точную оценку вероятности данных. Для разработчиков это означает более прозрачную тренировку и возможность строить "world models", где важно не только качество картинки, но и корректность распределения.
Улучшенная причинность и устойчивость во времени. Глобально‑локальная архитектура ограничивает причинные связи глобальным латентным пространством. Локальные взаимодействия внутри кадра остаются богатыми, но не раздувают зависимость по времени. Это снижает накопление ошибок, характерное для классических автоагрессивных диффузионных моделей.
Flow‑score matching. Исследователи добавили лёгкий причинный денойзер, который работает автоагрессивно и вычищает шум в процессе генерации. Это повышает согласованность кадров между собой, не превращая модель в тяжёлую диффузионную систему.
Video‑aware Jacobi iteration. Для ускорения сэмплирования команда использует модифицированную схему Якоби, которая:
- раскладывает внутренние обновления на параллельные итерации;
- при этом сохраняет причинность по времени.
В результате генерация видео остаётся автоагрессивной, но отдельные шаги можно эффективно распараллелить на GPU.
Единая архитектура для разных задач. За счёт обратимости normalizing flows один и тот же STARFlow‑V можно использовать для:
- text‑to‑video — генерация видео по текстовому описанию;
- image‑to‑video — анимация одного кадра или картинки;
- video‑to‑video — стилизация или модификация уже существующего видео.

Для индустрии это означает появление альтернативного стека для генерации видео. Не только diffusion‑модели, но и normalizing flows начинают выглядеть жизнеспособным вариантом. Особенно это интересно там, где важны:

строгие вероятностные оценки (научное моделирование, симуляции);
устойчивое долгое видео без "плывущей" динамики;
единый движок для разных типов задач.

Что это значит для вас

Если вы исследователь или ML‑инженер

STARFlow‑V показывает, что normalizing flows ещё не сказали последнего слова в генерации. До этого многие воспринимали их как перспективу для изображений, но не для сложного видео.

Теперь появляется аргумент в пользу NF и для видеомоделей:

есть работающая архитектура для spatiotemporal latent space;
показано, как ограничивать причинность глобальными латентами, не теряя детализацию;
предложен практичный способ ускорения сэмплирования без разрыва причинности.

Если вы строите свои генеративные видеомодели, имеет смысл рассматривать не только diffusion, но и NF‑подход. Особенно если вам нужны точные лог‑likelihood, интерпретируемость распределения и аккуратная работа с плотностями.

Если вы продакт или работаете в креативной индустрии

STARFlow‑V — это ещё не готовый потребительский инструмент, а исследовательская работа. Но направление понятно:

единая модель может поддерживать text‑to‑video, image‑to‑video и video‑to‑video;
автоагрессивная причинная структура помогает строить длинные ролики с ровной динамикой;
скорость сэмплирования уже сравнима с диффузионными системами.

Когда такие модели дойдут до продуктов Apple или других игроков, вы можете ожидать:

более стабильные видео, где объекты не "перескакивают" и не разваливаются по кадрам;
более предсказуемое поведение при длинных сценариях;
новые форматы редактирования уже существующего видео (video‑to‑video) в одном стеке с генерацией с нуля.

Если вы пользователь ИИ‑инструментов

STARFlow‑V напрямую не встроен в массовые сервисы, но влияет на их будущее. Если вы уже пользуетесь генерацией видео по тексту или анимацией картинок, для вас это означает:

в ближайшие годы можно ждать более плавные, связные ролики с меньшим количеством артефактов;
появление режимов, где один инструмент умеет и генерировать, и править видео, а не только создавать его с нуля;
возможное улучшение контроля над тем, как "ведут себя" объекты во времени.

Если вы работаете с экосистемой Apple (например, создаёте контент или приложения под её платформы), подобные исследования часто становятся основой будущих SDK и сервисов. Прямой интеграции пока нет, но направление исследований уже задано.

Как STARFlow‑V связан с другими работами Apple

Apple развивает линию генеративного видео не только через STARFlow‑V.

STIV: Scalable Text and Image Conditioned Video Generation (2025)

В августе 2025 года Apple представила STIV — метод для масштабируемой генерации видео по тексту и изображению. Там команда систематизировала:

архитектуры моделей;
тренировочные рецепты;
стратегии работы с данными.

Цель STIV — дать понятный, воспроизводимый рецепт построения устойчивых и масштабируемых видеомоделей. STARFlow‑V логично дополняет эту линию, но уже с упором на normalizing flows и строгую вероятностную формулировку.

STARFlow: Scaling Latent Normalizing Flows for High‑resolution Image Synthesis (2025)

В июне 2025 года на NeurIPS Apple представила STARFlow — генеративную модель для изображений на основе normalizing flows. Ключевая часть — TARFlow (Transformer Autoregressive Flow), который сочетает:

выразительность normalizing flows;
структурное моделирование распределений с помощью автогрегрессивных трансформеров.

В STARFlow исследователи:

теоретически обосновали универсальность TARFlow для непрерывных распределений;
показали, что такой подход масштабируется до высоких разрешений изображений.

STARFlow‑V опирается на эти идеи и переносит их из 2D‑картинок в 3D‑пространство "пространство × время". Это делает всю линию работ Apple связной: от картинок к видео, от теории к более сложным задачам.

Кому это подойдёт, а кому нет

Подойдёт:

исследователям, которые хотят строить вероятностные "world models" и ценят точный likelihood;
командам, которым важна причинность и устойчивое поведение видеомодели на длинных горизонтах;
разработчикам, ищущим альтернативу диффузионным моделям для видео.

Пока не подойдёт:

тем, кто ждёт готовый интерфейс уровня consumer‑приложения — STARFlow‑V это всё ещё исследовательская модель;
командам без доступа к серьёзным вычислительным ресурсам — normalizing flows для видео остаются тяжёлой задачей по памяти и вычислениям;
тем, кому достаточно уже существующих диффузионных видеогенераторов и не критичны вопросы вероятностной строгости.

Итог

STARFlow‑V показывает, что normalizing flows можно масштабировать не только до картинок, но и до сложных видеозадач. Apple и академические партнёры собрали архитектуру, которая:

работает в пространственно‑временном латентном пространстве;
использует глобально‑локальную структуру причинности;
дополняет flows причинным денойзером через flow‑score matching;
ускоряет сэмплирование с помощью video‑aware Jacobi iteration;
нативно поддерживает text‑to‑video, image‑to‑video и video‑to‑video.

Для индустрии это сигнал: у генерации видео появляется ещё один серьёзный технологический столп помимо диффузии. Для пользователей — обещание более стабильных и контролируемых видеомоделей в будущих продуктах.