Дата публикации
ai_products

NVIDIA Cosmos 3: единая открытая модель для физического ИИ, видео и действий

Что нового

NVIDIA выкатил Cosmos 3 — «омни‑модель» для физического ИИ, которая уже доступна на Hugging Face в двух вариантах:

  • Cosmos 3 Nano — 8B параметров для рассуждения и 8B для генерации (итого 16B в двух подсетях). Оптимизирован под рабочие станции с RTX PRO 6000.
  • Cosmos 3 Super — 32B параметров для рассуждения и 32B для генерации (64B суммарно). Ориентирован на крупные SDG‑проекты и исследования, работает на NVIDIA Hopper и Blackwell.

Главное изменение по сравнению с предыдущими версиями Cosmos:

  • раньше были отдельные модели: Cosmos Predict (генерация миров), Cosmos Transfer (контролируемая генерация), Cosmos Reason (понимание сцен), Cosmos Policy (политики действий);
  • теперь всё это в одном ядре Cosmos 3: одна модель генерирует миры, понимает физику сцены и выдаёт действия.

Из коробки Cosmos 3 умеет:

  • генерировать реалистичные и физически правдоподобные видео‑миры по тексту, картинке, видео или последовательности действий;
  • рассуждать о движении, причинно‑следственных связях и пространственных отношениях;
  • предсказывать будущее видео и действия по текущему состоянию сцены;
  • работать как VLM (vision-language model), как видеогенератор, как модель прямой/обратной динамики и как модель политики для роботов.

К релизу NVIDIA выложила:

  • две модели на Hugging Face с картами моделей и лицензией: nvidia/Cosmos3-Nano и nvidia/Cosmos3-Super;
  • интеграцию с Diffusers через Cosmos3OmniPipeline для текст‑к‑видео, изображение‑к‑видео и других сценариев;
  • скрипты пост‑обучения Cosmos 3 на собственных данных (GitHub);
  • набор открытых синтетических датасетов для физического ИИ: робототехника, физика, пространственное рассуждение, цифровые люди, автономное вождение, склады.

Как это работает

Omni‑архитектура на Mixture‑of‑Transformers

Cosmos 3 строится на архитектуре Mixture‑of‑Transformers (MoT). Модель обрабатывает сразу несколько модальностей:

  • текст;
  • изображения;
  • видео;
  • аудио;
  • действия (action tokens для роботов и агентов).

Каждая модальность проходит через свой энкодер:

  • ViT — для визуального понимания изображений и видео;
  • VAE — для генерации визуального и аудио‑контента;
  • векторные представления действий — доменно‑специфичные эмбеддинги для роботов и прочих исполнителей.

Все эмбеддинги проецируются в общее скрытое пространство. Дальше входная последовательность делится на две части:

  1. AR‑подпоследовательность (autoregressive)
    • отвечает за рассуждение, понимание, текст;
    • обучена предсказывать следующий токен (классический трансформер‑язык).
  2. DM‑подпоследовательность (diffusion model)
    • отвечает за генерацию видео и аудио;
    • обучена итеративно «очищать» шум (диффузионный процесс).

Важная деталь: AR‑ и DM‑токены имеют разные наборы параметров в каждом слое трансформера, но общую систему внимания. За счёт этого Cosmos 3 может в одном проходе:

  • прочитать текстовый запрос;
  • понять сцену и физику;
  • сгенерировать видео;
  • одновременно вычислить последовательность действий для робота.

Никаких переключений между моделями и пайплайнами — всё в одном forward pass.

Поддерживаемые режимы ввода/вывода

Cosmos 3 работает как единый «конструктор» задач физического ИИ. NVIDIA явно описывает несколько типичных режимов:

  • Текст | Изображение | Видео → Видео
    Генерация видео‑миров. Пример: смоделировать дорожную сцену или сценарий на складе.

  • Текст | Видео → Текст
    Режим VLM: описание сцены, разбор ситуации, chain‑of‑thought для автономного вождения и т.п.

  • Действие | Изображение | Текст → Видео
    Модель прямой динамики (forward dynamics): что произойдёт, если робот выполнит такие‑то действия.

  • Текст | Видео → Действие
    Модель обратной динамики (inverse dynamics): какие действия нужно выполнить, чтобы достичь цели.

  • Изображение | Текст → Видео и Действия
    Политика (policy model): и видео‑симуляция, и последовательность действий.

Подготовка промптов

NVIDIA даёт конкретные рекомендации по промптам:

  • Для видео — писать развёрнутый нарратив, а не короткий запрос. Пример (сокращённо):

The video begins with a view from inside a vehicle traveling on a multi-lane highway under a clear blue sky... As the video progresses, a large amount of debris suddenly appears on the lane ahead... A noticeable jolt occurs as the ego vehicle passes over the scattered objects.

  • Для действий — промпт должен быть коротким и с понятными пространственными ссылками. Примеры:

Put the pot to the left of the purple item. This video is captured from a first-person perspective looking at the scene.

Подробный гайд по промптам NVIDIA выложила на GitHub вместе с шаблонами для upsampling.

Что это значит для вас

Для кого Cosmos 3

Cosmos 3 ориентирован на тех, кто работает с физическим миром, а не только с текстом и картинками:

  • команды, которые строят роботов (манипуляторы, мобильные платформы, бытовая робототехника);
  • разработчики автономного транспорта и симуляторов вождения;
  • инженеры «умных» пространств: склады, логистика, промышленная автоматизация;
  • исследователи, которым нужен единый базовый мир‑модель (World Foundation Model) для симуляций, synthetic data и обучения политик.

Если вы:

  • тренируете робота складывать бельё;
  • моделируете сложные дорожные случаи (long tail scenarios);
  • генерируете синтетические данные для безопасности на складе;

— Cosmos 3 закрывает эти задачи в одной модели: симуляция + понимание + действия.

Где Cosmos 3 особенно полезен

  1. Робототехника и манипуляция

    • моделирование pick‑and‑place сценариев;
    • планирование действий в 3D‑пространстве с учётом физики;
    • обучение политик по синтетике: модель генерирует и видео, и действия.
  2. Автономное вождение

    • генерация редких дорожных сценариев (long tail) для дообучения систем;
    • chain‑of‑thought‑разбор ситуаций: почему произошёл тот или иной манёвр;
    • предсказание будущих кадров и действий других участников движения.
  3. Склады и индустриальные объекты

    • синтетика для сценариев безопасности: падение грузов, блокировка проходов, ошибки операторов;
    • планирование маршрутов и действий роботов в динамичной среде.
  4. Исследования физического ИИ

    • единый бэкенд для экспериментов с причинностью, пространственным рассуждением, человеческим движением;
    • возможность дообучения на своих датасетах через выложенные скрипты.

Где Cosmos 3 пока не лучший выбор

  • Чистый текстовый ИИ (чат‑боты, копирайтинг, код‑ассистенты) — для этого проще и дешевле взять GPT‑5, Claude 4 или аналогичные языковые модели.
  • Массовый потребительский контент (короткие развлекательные видео без физики, мемы) — Cosmos 3 заточен под физику и действия, а не под стилистику и эффектность.
  • Проекты без GPU‑инфраструктуры — даже Nano рассчитан на довольно мощную видеокарту. Если у вас только CPU или слабые GPU, запуск будет проблемой.

Доступность из России

Cosmos 3 распространяет NVIDIA через Hugging Face и GitHub. Для прямого доступа к Hugging Face из России часто используют VPN или зеркала. Это нужно учитывать при планировании инфраструктуры и CI/CD.

Сами модели заточены под NVIDIA‑GPU (RTX PRO 6000, Hopper, Blackwell). На других платформах (например, только CPU или не‑NVIDIA GPU) запуск либо сильно усложнится, либо станет непрактичным по скорости.

Место на рынке

Cosmos 3 относится к классу world foundation models — базовых моделей мира, которые умеют и симулировать, и понимать физическую среду. Прямых численных сравнений с другими моделями NVIDIA не приводит, но по позиционированию Cosmos 3 стоит рядом с:

  • крупными видеомоделями (текст‑к‑видео);
  • VLM‑ами (vision‑language);
  • моделями динамики и политик для роботов.

Ключевое отличие Cosmos 3 — объединение этих ролей в одном MoT‑ядре. Вместо отдельной VLM, отдельного видеогенератора и отдельной модели действий используется одна модель с разделением на AR‑ и DM‑подпоследовательности.

С точки зрения ресурсов:

  • Cosmos 3 Nano (8B + 8B) — формат, который можно реально запустить на мощной рабочей станции с RTX PRO 6000. Это интересный баланс между возможностями и доступностью.
  • Cosmos 3 Super (32B + 32B) — уже история про дата‑центры и крупные исследовательские команды с Hopper/Blackwell.

По открытости Cosmos 3 ближе к экосистеме Hugging Face и open‑weights моделей: NVIDIA публикует веса, документацию, датасеты и скрипты пост‑обучения. Это важно для тех, кто не может или не хочет строить физический ИИ на закрытых API без контроля над моделью.

Установка / Как запустить

Cosmos 3 уже интегрирован в Hugging Face Diffusers через Cosmos3OmniPipeline. Пример запуска текст‑к‑изображению (один кадр) на Cosmos 3 Nano:

import torch
from diffusers import Cosmos3OmniPipeline

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano",
    torch_dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = (
    "A medium shot of a modern robotics research laboratory with white walls and a gray floor. "
    "A robotic arm with a metallic finish is mounted on a clean white workbench, its gripper positioned "
    "above a row of small colored objects. A laptop and neatly arranged tools sit beside the robot. "
    "A large monitor on the wall behind displays a software interface. The scene is brightly lit by "
    "overhead fluorescent lights."
)

result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)

Этот же пайплайн поддерживает:

  • текст‑к‑видео;
  • изображение‑к‑видео;
  • другие комбинации модальностей, описанные в документации Cosmos 3 Diffusers.

Для пост‑обучения Cosmos 3 на своих данных NVIDIA выложила скрипты в Cosmos Framework на GitHub. Там же лежат:

  • скрипты инференса;
  • агент‑скиллы для работы с репозиторием, зависимостями и промптами;
  • гайды по настройке пайплайнов для роботов, автодрайвинга и «умных» пространств.

Датасеты для физического ИИ

Вместе с Cosmos 3 NVIDIA публикует набор синтетических датасетов Synthetic Data Generation (SDG) на Hugging Face. Они покрывают разные домены:

  • Embodied-Robot-Scenes — робототехника, симуляции роботов;
  • Physical-Interaction-Scenes — физика, данные из Isaac Sim;
  • Spatial-Reasoning — пространственное рассуждение в воплощённой среде;
  • Digital-Human-Scenes — синтетическое движение людей;
  • Autonomous-Driving-Scenarios — симуляции для автономного вождения;
  • Warehouse-Operations-Scenes — склады и безопасность в складской среде.

Эти датасеты можно использовать для:

  • обучения и дообучения Cosmos 3;
  • оценки качества собственных WFMs;
  • генерации дополнительных сценариев и задач в тех же доменах.

Cosmos Framework и агент‑скиллы

Cosmos Framework — это каркас, вокруг которого NVIDIA строит обучение и деплой WFMs вроде Cosmos 3. В нём находятся:

  • скрипты инференса;
  • скрипты пост‑обучения Cosmos 3 на своих роботах, задачах и средах;
  • агент‑скиллы для ускорения разработки.

Cosmos 3 уже «из коробки» понимает и генерирует видео‑миры и действия для:

  • робототехники;
  • автономного транспорта;
  • «умных» пространств.

Но NVIDIA прямо предлагает дообучать Cosmos 3 под конкретные:

  • типы роботов;
  • среды (например, ваши склады или лаборатории);
  • задачи (манипуляция конкретными объектами, специализированные сценарии вождения).

Агент‑скиллы в репозитории помогают:

  • проверить требования и окружение;
  • развернуть зависимости;
  • разобраться в структуре репо и примерах;
  • генерировать хорошие промпты;
  • запускать инференс и пост‑обучение.

Что почитать дальше

NVIDIA подготовила отдельный технический блог по Cosmos 3. Там разбираются:

  • архитектура и возможности модели;
  • результаты на задачах физического ИИ;
  • сценарии пост‑обучения;
  • деплой через NIM‑микросервисы.

Если вы строите продукты, где ИИ должен понимать физику, предсказывать будущее и планировать действия, Cosmos 3 стоит протестировать как базовый слой. Особенно если вам нужен не только API, но и доступ к самим весам, датасетам и скриптам обучения.


Читайте также