Depth Anything 3 (DA3) ist ein fortschrittliches Modell, das darauf ausgelegt ist, räumlich konsistente Geometrie aus verschiedenen visuellen Eingaben wiederherzustellen, unabhängig davon, ob die Kamerapositionen bekannt sind oder nicht. Es nutzt eine einfache Transformer-Architektur, speziell einen Vanilla DINOv2-Encoder, um überlegene Geometrie und 3D-Rendering zu erreichen, ohne dass komplexe Aufgaben oder spezialisierte Architekturen erforderlich sind.