Дата публикации
creative

Stability AI научила диффузию собирать «скелет» объекта прямо из видео

Что появилось / что изменилось

Stability AI представила Stable Part Diffusion 4D (SP4D) — систему, которая по одному видео генерирует сразу два потока:

  • обычный RGB‑видеоряд
  • покадровые карты «кинетических частей» объекта (условный скелет и сегментация по подвижным элементам)

Ключевое отличие от привычной сегментации: SP4D не красит картинку по смыслу (рука, нога, колесо), а делит объект на структурные детали, которые связаны с его артикуляцией. Эти части остаются согласованными:

  • между разными ракурсами
  • между кадрами по времени

Технические новинки и цифры из релиза:

  • Двойная диффузионная архитектура: одна ветка генерирует RGB‑кадры, вторая — карты частей.
  • Вместо жёстких масок SP4D кодирует части как непрерывное «цветное» изображение. Это позволяет обеим веткам делить один и тот же VAE‑латент.
  • Новый модуль Bidirectional Diffusion Fusion (BiDiFuse) синхронизирует ветки RGB и частей в обе стороны.
  • Контрастивный лосс на согласованность частей следит, чтобы сегментация не «плавала» по кадрам и ракурсам.
  • Карты частей можно «поднять» в 3D и получить скелет и skinning‑веса с минимумом ручной правки.
  • Для обучения Stability AI собрала датасет KinematicParts20K: более 20 000 ригованных объектов из Objaverse XL, для каждого — мультиракурсные RGB‑видео и видео частей.

Цен, скорости генерации и ограничений по длине видео Stability AI пока не раскрыла.

Как это работает

SP4D — это диффузионная модель с двумя ветками, которые учатся вместе.

  1. RGB‑ветка

    • Работает как типичная видео‑диффузия.
    • Кодирует кадры через VAE в латентное пространство и учится восстанавливать их из шума.
  2. Ветка частей

    • Вместо бинарных масок использует «цветовой код» частей: каждая часть — это область на псевдо‑RGB‑карте.
    • Эти карты проходят через тот же VAE, что и RGB. Это упрощает архитектуру и позволяет легко менять количество частей.
    • После генерации достаточно декодировать карту и разложить цвета обратно в маски.
  3. BiDiFuse

    • Модуль, который несколько раз за диффузионный шаг обменивает информацией две ветки.
    • Если RGB подсказывает, что рука сместилась, ветка частей тоже двигает соответствующую область, и наоборот.
  4. Контрастивный лосс на части

    • Модель получает позитивные и негативные пары участков: одна и та же часть в разных кадрах и ракурсах против чужих частей.
    • Лосс заставляет одну и ту же часть выглядеть согласованно по времени и видам.
  5. Переход в 3D

    • Сгенерированные 2D‑карты с разных ракурсов поднимают в 3D.
    • По ним строят скелет и вычисляют harmonic skinning‑веса.
    • Художник или технический артист затем слегка подчищает результат.

Что это значит для вас

SP4D интересен всем, кто работает с анимацией, 3D‑контентом и генеративным видео.

Где это полезно:

  • Быстрая подготовка рига из видео. У вас есть ролик с персонажем или объектом. SP4D выдаёт сегментацию по подвижным частям, из которой проще собрать скелет и skinning, чем с нуля.

  • Автоматизация технической анимации. Для игровых и рекламных студий это шанс ускорить рутинные этапы: подготовку базового рига, проверку артикуляции, поиск проблемных зон деформации.

  • Эксперименты с новыми объектами и «странными» позами. Авторы подчёркивают, что SP4D хорошо переносится на:

    • реальные видео
    • сгенерированные объекты
    • редкие, экстремальные позы
  • Исследовательские задачи. Если вы занимаетесь компьютерным зрением, SP4D — готовый инструмент для изучения связи между пикселями и кинематикой.

Где не стоит рассчитывать на магию:

  • Точная продакшн‑анимация «из коробки». Модель всё ещё требует ручной правки. Для киноуровня качества вам понадобится опытный риггер и аниматор.

  • Сложные сцены с несколькими взаимодействующими персонажами. В релизе акцент на одиночных объектах. Для толпы или плотных взаимодействий поведение SP4D пока под вопросом.

  • Жёсткие требования по контролю. Если вам нужно пиксель‑в‑пиксель повторение исходной кинематики, классический motion capture и ручной риг всё ещё надёжнее.

Доступность: Stability AI не пишет про региональные блокировки. Но по опыту с их продуктами можно ожидать, что придётся либо качать веса и запускать локально, либо использовать зарубежный хостинг. В некоторых случаях понадобится VPN.

Место на рынке

SP4D живёт на стыке сразу нескольких направлений:

  • генерация видео (аналогично Pika, Runway, Kling, но с фокусом на структуру объекта)
  • сегментация и парсинг частей (Mask2Former, Segment Anything и т.п.)
  • извлечение скелета и рига из данных (разные academic‑подходы к 3D‑reconstruction и animatable avatars)

Если сравнивать по функциям:

  • Runway, Pika, Kling генерируют красивое видео, но не дают вам структурной информации про объект. Там нет карт частей, скелета или skinning‑весов.
  • Segment Anything и другие сегментаторы умеют выделять объекты и их части, но не гарантируют согласованность по времени и ракурсам, а также не думают о кинематике.
  • Исследовательские работы по animatable avatars часто требуют плотных 3D‑данных или сложной подготовки. SP4D, по заявлению авторов, работает от обычного видео.

Конкретных бенчмарков против конкурентов Stability AI не приводит: нет цифр по PSNR, IoU частей или скорости генерации. Есть только качественные примеры и описание того, что 2D‑карты успешно поднимаются в 3D с «немногими» ручными правками.

Если вы уже используете Runway или Pika для генеративного видео, SP4D — не замена, а дополнительный инструмент. Он про структуру и анимацию, а не про финальный визуал. Для студий, которые тратят много часов на риггинг и подготовку ассетов, это потенциальный ускоритель пайплайна. Для всех остальных — интересная демка, за которой стоит следить, но не обязательно срочно внедрять в продакшн.

Stability AI научила диффузию собирать «скелет» объекта прямо из видео — VogueTech | VogueTech