- Дата публикации
Depth Anything 3: ByteDance показала единый трансформер для 3D‑реконструкции из любых ракурсов
Что появилось / что изменилось
ByteDance Seed представила Depth Anything 3 (DA3) — открытый трансформер для пространственной реконструкции сцены из изображений и видео. Это продолжение линейки Depth Anything, но теперь акцент не только на монокулярной глубине, а на 3D‑понимании сцены из любых ракурсов.
Главные факты:
- Один общий трансформер вместо набора отдельных сетей для разных задач.
- Единое представление сцены через так называемые «depth‑ray» карты: модель предсказывает и глубину, и лучи камеры.
- DA3 работает с произвольным числом входных видов и строит общую 3D‑картину.
- По заявлению ByteDance Seed, DA3 обгоняет прошлый SOTA‑подход VGGT:
- точность оценки позы камеры выше в среднем на 35,7%;
- точность геометрической реконструкции выше в среднем на 23,6%.
- В монокулярной оценке глубины DA3 улучшает результат DA2, который уже был на уровне SOTA.
- Исходники и отчёт доступны:
- Tech report: https://arxiv.org/abs/2511.10647
- Код: https://github.com/ByteDance-Seed/depth-anything-3
- Сайт: https://depth-anything-3.github.io
- Демо в Hugging Face Spaces: https://huggingface.co/spaces/depth-anything/depth-anything-3
Как это работает
Команда ByteDance Seed пошла от обратного: вместо сборки конвейера из отдельных модулей они свели всё к одному механизму — трансформеру с вниманием между ракурсами.
Ключевые элементы:
- Один трансформер. Модель принимает токены из одного или нескольких изображений и обрабатывает их общим стеком слоёв. Никаких отдельных сетей для поз камеры, глубины и реконструкции.
- Cross‑view self‑attention. Механизм внимания учитывает не только связи внутри одного кадра, но и между разными видами сцены. Это даёт модели способ «свести» информацию из разных ракурсов без ручных модулей слияния признаков.
- Dual‑DPT head. На выходе трансформера стоит двухголовый декодер формата DPT. Одна голова предсказывает карту глубины, вторая — карту лучей (ray map), которая описывает геометрию проекции камеры.
- Единое представление «depth‑ray». Вместо отдельных выходов под каждую задачу модель учится одной общей геометрии сцены. Уже из неё можно восстановить и позу камеры, и структуру сцены.
За счёт этого архитектура остаётся лёгкой, проще в обучении и развёртывании, чем громоздкие мультизадачные пайплайны с кучей специализированных блоков.
Что это значит для вас
Если вы работаете с 3D и компьютерным зрением, DA3 — это способ собрать более простой стек:
- Для разработчиков в AR/VR. Можно использовать DA3 для быстрого наброска 3D‑структуры комнаты или объекта по нескольким кадрам. Это удобно для прототипов приложений дополненной реальности, где важна оценка глубины и позы камеры в реальном времени или около того.
- Для робототехники и дронов. Модель подходит как базовый блок восприятия: оценка глубины, геометрии сцены и позы камеры из потокового видео. Это полезно для навигации и построения карты окружения.
- Для 3D‑контента и визуализации. DA3 можно встроить в пайплайн реконструкции сцен для игр, виртуальных туров, архитектурной визуализации.
Где использовать аккуратно:
- Критическая безопасность. Для автопилотов и промышленных роботов одной DA3 недостаточно. Нужны дополнительные сенсоры, классические SLAM‑системы и серьёзная валидация.
- Тяжёлые продакшн‑сценарии. Модель только вышла, и вам придётся самим проверять стабильность на своих данных, подбирать режимы инференса и оптимизации.
Доступ:
- Код и демо лежат на GitHub и в Hugging Face Spaces. Если эти ресурсы недоступны из вашей сети, потребуется VPN или зеркала.
- Лицензия и ограничения использования описаны в репозитории ByteDance Seed, их нужно проверить перед коммерческим применением.
Место на рынке
DA3 соревнуется не с текстовыми ИИ вроде GPT‑5 или Claude 4, а с моделями пространственного зрения: системами, которые оценивают глубину, позу камеры и восстанавливают геометрию сцены.
По заявленным метрикам:
- DA3 обгоняет предыдущий SOTA‑подход VGGT по двум ключевым показателям:
- точность позы камеры лучше в среднем на 35,7%;
- точность геометрической реконструкции выше на 23,6%.
- В монокулярной глубине DA3 улучшает результат DA2, который уже считался очень сильным решением в этой нише.
Главное отличие от многих конкурентов — ставка на один трансформер и единое представление «depth‑ray» вместо набора разрозненных модулей и сложного мультизадачного обучения. Это плюс для тех, кто ценит простую архитектуру и хочет быстрее интегрировать 3D‑понимание сцены в свои продукты.
Минус очевиден: экосистема вокруг DA3 пока только формируется. Готовых SDK, плагинов для популярных движков и подробных гайдов будет меньше, чем у старых решений. Придётся опираться на исходники, статью на arXiv и собственные эксперименты.