Depth Anything 3: ByteDance показала единый трансформер для 3D‑реконструкции из любых ракурсов — VogueTech

Что появилось / что изменилось

ByteDance Seed представила Depth Anything 3 (DA3) — открытый трансформер для пространственной реконструкции сцены из изображений и видео. Это продолжение линейки Depth Anything, но теперь акцент не только на монокулярной глубине, а на 3D‑понимании сцены из любых ракурсов.

Главные факты:

Один общий трансформер вместо набора отдельных сетей для разных задач.
Единое представление сцены через так называемые «depth‑ray» карты: модель предсказывает и глубину, и лучи камеры.
DA3 работает с произвольным числом входных видов и строит общую 3D‑картину.
По заявлению ByteDance Seed, DA3 обгоняет прошлый SOTA‑подход VGGT:
- точность оценки позы камеры выше в среднем на 35,7%;
- точность геометрической реконструкции выше в среднем на 23,6%.
В монокулярной оценке глубины DA3 улучшает результат DA2, который уже был на уровне SOTA.
Исходники и отчёт доступны:
- Tech report: https://arxiv.org/abs/2511.10647
- Код: https://github.com/ByteDance-Seed/depth-anything-3
- Сайт: https://depth-anything-3.github.io
- Демо в Hugging Face Spaces: https://huggingface.co/spaces/depth-anything/depth-anything-3

Как это работает

Команда ByteDance Seed пошла от обратного: вместо сборки конвейера из отдельных модулей они свели всё к одному механизму — трансформеру с вниманием между ракурсами.

Ключевые элементы:

Один трансформер. Модель принимает токены из одного или нескольких изображений и обрабатывает их общим стеком слоёв. Никаких отдельных сетей для поз камеры, глубины и реконструкции.
Cross‑view self‑attention. Механизм внимания учитывает не только связи внутри одного кадра, но и между разными видами сцены. Это даёт модели способ «свести» информацию из разных ракурсов без ручных модулей слияния признаков.
Dual‑DPT head. На выходе трансформера стоит двухголовый декодер формата DPT. Одна голова предсказывает карту глубины, вторая — карту лучей (ray map), которая описывает геометрию проекции камеры.
Единое представление «depth‑ray». Вместо отдельных выходов под каждую задачу модель учится одной общей геометрии сцены. Уже из неё можно восстановить и позу камеры, и структуру сцены.

За счёт этого архитектура остаётся лёгкой, проще в обучении и развёртывании, чем громоздкие мультизадачные пайплайны с кучей специализированных блоков.

Что это значит для вас

Если вы работаете с 3D и компьютерным зрением, DA3 — это способ собрать более простой стек:

Для разработчиков в AR/VR. Можно использовать DA3 для быстрого наброска 3D‑структуры комнаты или объекта по нескольким кадрам. Это удобно для прототипов приложений дополненной реальности, где важна оценка глубины и позы камеры в реальном времени или около того.
Для робототехники и дронов. Модель подходит как базовый блок восприятия: оценка глубины, геометрии сцены и позы камеры из потокового видео. Это полезно для навигации и построения карты окружения.
Для 3D‑контента и визуализации. DA3 можно встроить в пайплайн реконструкции сцен для игр, виртуальных туров, архитектурной визуализации.

Где использовать аккуратно:

Критическая безопасность. Для автопилотов и промышленных роботов одной DA3 недостаточно. Нужны дополнительные сенсоры, классические SLAM‑системы и серьёзная валидация.
Тяжёлые продакшн‑сценарии. Модель только вышла, и вам придётся самим проверять стабильность на своих данных, подбирать режимы инференса и оптимизации.

Доступ:

Код и демо лежат на GitHub и в Hugging Face Spaces. Если эти ресурсы недоступны из вашей сети, потребуется VPN или зеркала.
Лицензия и ограничения использования описаны в репозитории ByteDance Seed, их нужно проверить перед коммерческим применением.

Место на рынке

DA3 соревнуется не с текстовыми ИИ вроде GPT‑5 или Claude 4, а с моделями пространственного зрения: системами, которые оценивают глубину, позу камеры и восстанавливают геометрию сцены.

По заявленным метрикам:

DA3 обгоняет предыдущий SOTA‑подход VGGT по двум ключевым показателям:
- точность позы камеры лучше в среднем на 35,7%;
- точность геометрической реконструкции выше на 23,6%.
В монокулярной глубине DA3 улучшает результат DA2, который уже считался очень сильным решением в этой нише.

Главное отличие от многих конкурентов — ставка на один трансформер и единое представление «depth‑ray» вместо набора разрозненных модулей и сложного мультизадачного обучения. Это плюс для тех, кто ценит простую архитектуру и хочет быстрее интегрировать 3D‑понимание сцены в свои продукты.

Минус очевиден: экосистема вокруг DA3 пока только формируется. Готовых SDK, плагинов для популярных движков и подробных гайдов будет меньше, чем у старых решений. Придётся опираться на исходники, статью на arXiv и собственные эксперименты.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также