Stability AI научила диффузию собирать «скелет» объекта прямо из видео — VogueTech

Что появилось / что изменилось

Stability AI представила Stable Part Diffusion 4D (SP4D) — систему, которая по одному видео генерирует сразу два потока:

обычный RGB‑видеоряд
покадровые карты «кинетических частей» объекта (условный скелет и сегментация по подвижным элементам)

Ключевое отличие от привычной сегментации: SP4D не красит картинку по смыслу (рука, нога, колесо), а делит объект на структурные детали, которые связаны с его артикуляцией. Эти части остаются согласованными:

между разными ракурсами
между кадрами по времени

Технические новинки и цифры из релиза:

Двойная диффузионная архитектура: одна ветка генерирует RGB‑кадры, вторая — карты частей.
Вместо жёстких масок SP4D кодирует части как непрерывное «цветное» изображение. Это позволяет обеим веткам делить один и тот же VAE‑латент.
Новый модуль Bidirectional Diffusion Fusion (BiDiFuse) синхронизирует ветки RGB и частей в обе стороны.
Контрастивный лосс на согласованность частей следит, чтобы сегментация не «плавала» по кадрам и ракурсам.
Карты частей можно «поднять» в 3D и получить скелет и skinning‑веса с минимумом ручной правки.
Для обучения Stability AI собрала датасет KinematicParts20K: более 20 000 ригованных объектов из Objaverse XL, для каждого — мультиракурсные RGB‑видео и видео частей.

Цен, скорости генерации и ограничений по длине видео Stability AI пока не раскрыла.

Как это работает

SP4D — это диффузионная модель с двумя ветками, которые учатся вместе.

RGB‑ветка
- Работает как типичная видео‑диффузия.
- Кодирует кадры через VAE в латентное пространство и учится восстанавливать их из шума.
Ветка частей
- Вместо бинарных масок использует «цветовой код» частей: каждая часть — это область на псевдо‑RGB‑карте.
- Эти карты проходят через тот же VAE, что и RGB. Это упрощает архитектуру и позволяет легко менять количество частей.
- После генерации достаточно декодировать карту и разложить цвета обратно в маски.
BiDiFuse
- Модуль, который несколько раз за диффузионный шаг обменивает информацией две ветки.
- Если RGB подсказывает, что рука сместилась, ветка частей тоже двигает соответствующую область, и наоборот.
Контрастивный лосс на части
- Модель получает позитивные и негативные пары участков: одна и та же часть в разных кадрах и ракурсах против чужих частей.
- Лосс заставляет одну и ту же часть выглядеть согласованно по времени и видам.
Переход в 3D
- Сгенерированные 2D‑карты с разных ракурсов поднимают в 3D.
- По ним строят скелет и вычисляют harmonic skinning‑веса.
- Художник или технический артист затем слегка подчищает результат.

Что это значит для вас

SP4D интересен всем, кто работает с анимацией, 3D‑контентом и генеративным видео.

Где это полезно:

Быстрая подготовка рига из видео. У вас есть ролик с персонажем или объектом. SP4D выдаёт сегментацию по подвижным частям, из которой проще собрать скелет и skinning, чем с нуля.
Автоматизация технической анимации. Для игровых и рекламных студий это шанс ускорить рутинные этапы: подготовку базового рига, проверку артикуляции, поиск проблемных зон деформации.
Эксперименты с новыми объектами и «странными» позами. Авторы подчёркивают, что SP4D хорошо переносится на:
- реальные видео
- сгенерированные объекты
- редкие, экстремальные позы
Исследовательские задачи. Если вы занимаетесь компьютерным зрением, SP4D — готовый инструмент для изучения связи между пикселями и кинематикой.

Где не стоит рассчитывать на магию:

Точная продакшн‑анимация «из коробки». Модель всё ещё требует ручной правки. Для киноуровня качества вам понадобится опытный риггер и аниматор.
Сложные сцены с несколькими взаимодействующими персонажами. В релизе акцент на одиночных объектах. Для толпы или плотных взаимодействий поведение SP4D пока под вопросом.
Жёсткие требования по контролю. Если вам нужно пиксель‑в‑пиксель повторение исходной кинематики, классический motion capture и ручной риг всё ещё надёжнее.

Доступность: Stability AI не пишет про региональные блокировки. Но по опыту с их продуктами можно ожидать, что придётся либо качать веса и запускать локально, либо использовать зарубежный хостинг. В некоторых случаях понадобится VPN.

Место на рынке

SP4D живёт на стыке сразу нескольких направлений:

генерация видео (аналогично Pika, Runway, Kling, но с фокусом на структуру объекта)
сегментация и парсинг частей (Mask2Former, Segment Anything и т.п.)
извлечение скелета и рига из данных (разные academic‑подходы к 3D‑reconstruction и animatable avatars)

Если сравнивать по функциям:

Runway, Pika, Kling генерируют красивое видео, но не дают вам структурной информации про объект. Там нет карт частей, скелета или skinning‑весов.
Segment Anything и другие сегментаторы умеют выделять объекты и их части, но не гарантируют согласованность по времени и ракурсам, а также не думают о кинематике.
Исследовательские работы по animatable avatars часто требуют плотных 3D‑данных или сложной подготовки. SP4D, по заявлению авторов, работает от обычного видео.

Конкретных бенчмарков против конкурентов Stability AI не приводит: нет цифр по PSNR, IoU частей или скорости генерации. Есть только качественные примеры и описание того, что 2D‑карты успешно поднимаются в 3D с «немногими» ручными правками.

Если вы уже используете Runway или Pika для генеративного видео, SP4D — не замена, а дополнительный инструмент. Он про структуру и анимацию, а не про финальный визуал. Для студий, которые тратят много часов на риггинг и подготовку ассетов, это потенциальный ускоритель пайплайна. Для всех остальных — интересная демка, за которой стоит следить, но не обязательно срочно внедрять в продакшн.