Дата публикации
ai_products

Depth Anything 3: ByteDance показала единый трансформер для 3D‑реконструкции из любых ракурсов

Что появилось / что изменилось

ByteDance Seed представила Depth Anything 3 (DA3) — открытый трансформер для пространственной реконструкции сцены из изображений и видео. Это продолжение линейки Depth Anything, но теперь акцент не только на монокулярной глубине, а на 3D‑понимании сцены из любых ракурсов.

Главные факты:

  • Один общий трансформер вместо набора отдельных сетей для разных задач.
  • Единое представление сцены через так называемые «depth‑ray» карты: модель предсказывает и глубину, и лучи камеры.
  • DA3 работает с произвольным числом входных видов и строит общую 3D‑картину.
  • По заявлению ByteDance Seed, DA3 обгоняет прошлый SOTA‑подход VGGT:
    • точность оценки позы камеры выше в среднем на 35,7%;
    • точность геометрической реконструкции выше в среднем на 23,6%.
  • В монокулярной оценке глубины DA3 улучшает результат DA2, который уже был на уровне SOTA.
  • Исходники и отчёт доступны:
    • Tech report: https://arxiv.org/abs/2511.10647
    • Код: https://github.com/ByteDance-Seed/depth-anything-3
    • Сайт: https://depth-anything-3.github.io
    • Демо в Hugging Face Spaces: https://huggingface.co/spaces/depth-anything/depth-anything-3

Как это работает

Команда ByteDance Seed пошла от обратного: вместо сборки конвейера из отдельных модулей они свели всё к одному механизму — трансформеру с вниманием между ракурсами.

Ключевые элементы:

  • Один трансформер. Модель принимает токены из одного или нескольких изображений и обрабатывает их общим стеком слоёв. Никаких отдельных сетей для поз камеры, глубины и реконструкции.
  • Cross‑view self‑attention. Механизм внимания учитывает не только связи внутри одного кадра, но и между разными видами сцены. Это даёт модели способ «свести» информацию из разных ракурсов без ручных модулей слияния признаков.
  • Dual‑DPT head. На выходе трансформера стоит двухголовый декодер формата DPT. Одна голова предсказывает карту глубины, вторая — карту лучей (ray map), которая описывает геометрию проекции камеры.
  • Единое представление «depth‑ray». Вместо отдельных выходов под каждую задачу модель учится одной общей геометрии сцены. Уже из неё можно восстановить и позу камеры, и структуру сцены.

За счёт этого архитектура остаётся лёгкой, проще в обучении и развёртывании, чем громоздкие мультизадачные пайплайны с кучей специализированных блоков.

Что это значит для вас

Если вы работаете с 3D и компьютерным зрением, DA3 — это способ собрать более простой стек:

  • Для разработчиков в AR/VR. Можно использовать DA3 для быстрого наброска 3D‑структуры комнаты или объекта по нескольким кадрам. Это удобно для прототипов приложений дополненной реальности, где важна оценка глубины и позы камеры в реальном времени или около того.
  • Для робототехники и дронов. Модель подходит как базовый блок восприятия: оценка глубины, геометрии сцены и позы камеры из потокового видео. Это полезно для навигации и построения карты окружения.
  • Для 3D‑контента и визуализации. DA3 можно встроить в пайплайн реконструкции сцен для игр, виртуальных туров, архитектурной визуализации.

Где использовать аккуратно:

  • Критическая безопасность. Для автопилотов и промышленных роботов одной DA3 недостаточно. Нужны дополнительные сенсоры, классические SLAM‑системы и серьёзная валидация.
  • Тяжёлые продакшн‑сценарии. Модель только вышла, и вам придётся самим проверять стабильность на своих данных, подбирать режимы инференса и оптимизации.

Доступ:

  • Код и демо лежат на GitHub и в Hugging Face Spaces. Если эти ресурсы недоступны из вашей сети, потребуется VPN или зеркала.
  • Лицензия и ограничения использования описаны в репозитории ByteDance Seed, их нужно проверить перед коммерческим применением.

Место на рынке

DA3 соревнуется не с текстовыми ИИ вроде GPT‑5 или Claude 4, а с моделями пространственного зрения: системами, которые оценивают глубину, позу камеры и восстанавливают геометрию сцены.

По заявленным метрикам:

  • DA3 обгоняет предыдущий SOTA‑подход VGGT по двум ключевым показателям:
    • точность позы камеры лучше в среднем на 35,7%;
    • точность геометрической реконструкции выше на 23,6%.
  • В монокулярной глубине DA3 улучшает результат DA2, который уже считался очень сильным решением в этой нише.

Главное отличие от многих конкурентов — ставка на один трансформер и единое представление «depth‑ray» вместо набора разрозненных модулей и сложного мультизадачного обучения. Это плюс для тех, кто ценит простую архитектуру и хочет быстрее интегрировать 3D‑понимание сцены в свои продукты.

Минус очевиден: экосистема вокруг DA3 пока только формируется. Готовых SDK, плагинов для популярных движков и подробных гайдов будет меньше, чем у старых решений. Придётся опираться на исходники, статью на arXiv и собственные эксперименты.


Читайте также

Depth Anything 3: ByteDance показала единый трансформер для 3D‑реконструкции из любых ракурсов — VogueTech | VogueTech