- Дата публикации
Stability AI научила диффузию собирать «скелет» объекта прямо из видео
Что появилось / что изменилось
Stability AI представила Stable Part Diffusion 4D (SP4D) — систему, которая по одному видео генерирует сразу два потока:
- обычный RGB‑видеоряд
- покадровые карты «кинетических частей» объекта (условный скелет и сегментация по подвижным элементам)
Ключевое отличие от привычной сегментации: SP4D не красит картинку по смыслу (рука, нога, колесо), а делит объект на структурные детали, которые связаны с его артикуляцией. Эти части остаются согласованными:
- между разными ракурсами
- между кадрами по времени
Технические новинки и цифры из релиза:
- Двойная диффузионная архитектура: одна ветка генерирует RGB‑кадры, вторая — карты частей.
- Вместо жёстких масок SP4D кодирует части как непрерывное «цветное» изображение. Это позволяет обеим веткам делить один и тот же VAE‑латент.
- Новый модуль Bidirectional Diffusion Fusion (BiDiFuse) синхронизирует ветки RGB и частей в обе стороны.
- Контрастивный лосс на согласованность частей следит, чтобы сегментация не «плавала» по кадрам и ракурсам.
- Карты частей можно «поднять» в 3D и получить скелет и skinning‑веса с минимумом ручной правки.
- Для обучения Stability AI собрала датасет KinematicParts20K: более 20 000 ригованных объектов из Objaverse XL, для каждого — мультиракурсные RGB‑видео и видео частей.
Цен, скорости генерации и ограничений по длине видео Stability AI пока не раскрыла.
Как это работает
SP4D — это диффузионная модель с двумя ветками, которые учатся вместе.
-
RGB‑ветка
- Работает как типичная видео‑диффузия.
- Кодирует кадры через VAE в латентное пространство и учится восстанавливать их из шума.
-
Ветка частей
- Вместо бинарных масок использует «цветовой код» частей: каждая часть — это область на псевдо‑RGB‑карте.
- Эти карты проходят через тот же VAE, что и RGB. Это упрощает архитектуру и позволяет легко менять количество частей.
- После генерации достаточно декодировать карту и разложить цвета обратно в маски.
-
BiDiFuse
- Модуль, который несколько раз за диффузионный шаг обменивает информацией две ветки.
- Если RGB подсказывает, что рука сместилась, ветка частей тоже двигает соответствующую область, и наоборот.
-
Контрастивный лосс на части
- Модель получает позитивные и негативные пары участков: одна и та же часть в разных кадрах и ракурсах против чужих частей.
- Лосс заставляет одну и ту же часть выглядеть согласованно по времени и видам.
-
Переход в 3D
- Сгенерированные 2D‑карты с разных ракурсов поднимают в 3D.
- По ним строят скелет и вычисляют harmonic skinning‑веса.
- Художник или технический артист затем слегка подчищает результат.
Что это значит для вас
SP4D интересен всем, кто работает с анимацией, 3D‑контентом и генеративным видео.
Где это полезно:
-
Быстрая подготовка рига из видео. У вас есть ролик с персонажем или объектом. SP4D выдаёт сегментацию по подвижным частям, из которой проще собрать скелет и skinning, чем с нуля.
-
Автоматизация технической анимации. Для игровых и рекламных студий это шанс ускорить рутинные этапы: подготовку базового рига, проверку артикуляции, поиск проблемных зон деформации.
-
Эксперименты с новыми объектами и «странными» позами. Авторы подчёркивают, что SP4D хорошо переносится на:
- реальные видео
- сгенерированные объекты
- редкие, экстремальные позы
-
Исследовательские задачи. Если вы занимаетесь компьютерным зрением, SP4D — готовый инструмент для изучения связи между пикселями и кинематикой.
Где не стоит рассчитывать на магию:
-
Точная продакшн‑анимация «из коробки». Модель всё ещё требует ручной правки. Для киноуровня качества вам понадобится опытный риггер и аниматор.
-
Сложные сцены с несколькими взаимодействующими персонажами. В релизе акцент на одиночных объектах. Для толпы или плотных взаимодействий поведение SP4D пока под вопросом.
-
Жёсткие требования по контролю. Если вам нужно пиксель‑в‑пиксель повторение исходной кинематики, классический motion capture и ручной риг всё ещё надёжнее.
Доступность: Stability AI не пишет про региональные блокировки. Но по опыту с их продуктами можно ожидать, что придётся либо качать веса и запускать локально, либо использовать зарубежный хостинг. В некоторых случаях понадобится VPN.
Место на рынке
SP4D живёт на стыке сразу нескольких направлений:
- генерация видео (аналогично Pika, Runway, Kling, но с фокусом на структуру объекта)
- сегментация и парсинг частей (Mask2Former, Segment Anything и т.п.)
- извлечение скелета и рига из данных (разные academic‑подходы к 3D‑reconstruction и animatable avatars)
Если сравнивать по функциям:
- Runway, Pika, Kling генерируют красивое видео, но не дают вам структурной информации про объект. Там нет карт частей, скелета или skinning‑весов.
- Segment Anything и другие сегментаторы умеют выделять объекты и их части, но не гарантируют согласованность по времени и ракурсам, а также не думают о кинематике.
- Исследовательские работы по animatable avatars часто требуют плотных 3D‑данных или сложной подготовки. SP4D, по заявлению авторов, работает от обычного видео.
Конкретных бенчмарков против конкурентов Stability AI не приводит: нет цифр по PSNR, IoU частей или скорости генерации. Есть только качественные примеры и описание того, что 2D‑карты успешно поднимаются в 3D с «немногими» ручными правками.
Если вы уже используете Runway или Pika для генеративного видео, SP4D — не замена, а дополнительный инструмент. Он про структуру и анимацию, а не про финальный визуал. Для студий, которые тратят много часов на риггинг и подготовку ассетов, это потенциальный ускоритель пайплайна. Для всех остальных — интересная демка, за которой стоит следить, но не обязательно срочно внедрять в продакшн.