- Registriert
- 15.06.24
- Beiträge
- 27.548
Geschrieben von: Michael Reimann
Apple hat in Zusammenarbeit mit der Nanjing University und der Hong Kong University of Science and Technology das 3D-KI-Modell Matrix3D vorgestellt. Dieses Large Photogrammetry Model ermöglicht es, detailreiche 3D-Objekte und -Szenen aus lediglich drei 2D-Fotos zu rekonstruieren. Der Ansatz verspricht eine erhebliche Vereinfachung bestehender Workflows in der Photogrammetrie.
Photogrammetrie nutzt Fotos, um präzise 3D-Modelle oder Karten zu erstellen. Üblicherweise sind dafür mehrere spezialisierte Modelle nötig, etwa für Pose-Schätzung und Tiefenberechnung. Dieser modulare Aufbau führt jedoch oft zu Effizienzverlusten und Fehlerquellen.
Matrix3D verfolgt einen anderen Ansatz. Das Modell verarbeitet Bilddaten, Kameraparameter (wie Blickwinkel und Brennweite) sowie Tiefeninformationen in einem einzigen, durchgängigen Architekturmodell. Damit werden die bisherigen, komplexen Verarbeitungsschritte zusammengeführt. Dies reduziert nicht nur den Rechenaufwand, sondern verbessert auch die Genauigkeit der 3D-Rekonstruktionen.
Ein zentrales Element des Matrix3D-Modells ist die sogenannte Masked Learning Strategy. Hierbei werden während des Trainings zufällig Teile der Eingabedaten ausgeblendet. Das Modell lernt so, fehlende Informationen eigenständig zu ergänzen.
Diese Methode ist bekannt aus frühen Transformer-basierten Systemen und war entscheidend für die Entwicklung von KI-Modellen wie ChatGPT. Sie ermöglicht es, auch mit kleineren und unvollständigen Datensätzen hochwertige Ergebnisse zu erzielen. Für Matrix3D bedeutet dies eine erhöhte Flexibilität und Effizienz beim Training.
Die Fähigkeit, mit nur drei Bildern präzise 3D-Szenen zu erstellen, eröffnet vielfältige Anwendungsmöglichkeiten. Besonders interessant ist dies für immersive Plattformen wie das Apple Vision Pro Headset. Nutzer:innen könnten zukünftig reale Umgebungen einfacher digitalisieren und in virtuellen Räumen nutzen.
Apple und die beteiligten Universitäten haben den Quellcode von Matrix3D auf GitHub veröffentlicht. Das begleitende Paper wurde auf arXiv publiziert. Zudem steht eine Website mit Beispielvideos und interaktiven Punktwolken-Darstellungen zur Verfügung.
Matrix3D markiert einen wichtigen Schritt in Richtung effizienter und zugänglicher 3D-Rekonstruktionstechnologien. Die Kombination aus vereinfachter Pipeline und innovativem Training könnte den Umgang mit 3D-Daten in vielen Bereichen grundlegend verändern.
Via: https://9to5mac.com
Im Magazin lesen....

Apple hat in Zusammenarbeit mit der Nanjing University und der Hong Kong University of Science and Technology das 3D-KI-Modell Matrix3D vorgestellt. Dieses Large Photogrammetry Model ermöglicht es, detailreiche 3D-Objekte und -Szenen aus lediglich drei 2D-Fotos zu rekonstruieren. Der Ansatz verspricht eine erhebliche Vereinfachung bestehender Workflows in der Photogrammetrie.
Photogrammetrie neu gedacht mit Matrix3D
Photogrammetrie nutzt Fotos, um präzise 3D-Modelle oder Karten zu erstellen. Üblicherweise sind dafür mehrere spezialisierte Modelle nötig, etwa für Pose-Schätzung und Tiefenberechnung. Dieser modulare Aufbau führt jedoch oft zu Effizienzverlusten und Fehlerquellen.
Matrix3D verfolgt einen anderen Ansatz. Das Modell verarbeitet Bilddaten, Kameraparameter (wie Blickwinkel und Brennweite) sowie Tiefeninformationen in einem einzigen, durchgängigen Architekturmodell. Damit werden die bisherigen, komplexen Verarbeitungsschritte zusammengeführt. Dies reduziert nicht nur den Rechenaufwand, sondern verbessert auch die Genauigkeit der 3D-Rekonstruktionen.
Trainingsstrategie inspiriert von Transformer-Architekturen
Ein zentrales Element des Matrix3D-Modells ist die sogenannte Masked Learning Strategy. Hierbei werden während des Trainings zufällig Teile der Eingabedaten ausgeblendet. Das Modell lernt so, fehlende Informationen eigenständig zu ergänzen.
Diese Methode ist bekannt aus frühen Transformer-basierten Systemen und war entscheidend für die Entwicklung von KI-Modellen wie ChatGPT. Sie ermöglicht es, auch mit kleineren und unvollständigen Datensätzen hochwertige Ergebnisse zu erzielen. Für Matrix3D bedeutet dies eine erhöhte Flexibilität und Effizienz beim Training.
Anwendungen für Apple Vision Pro und Open Source
Die Fähigkeit, mit nur drei Bildern präzise 3D-Szenen zu erstellen, eröffnet vielfältige Anwendungsmöglichkeiten. Besonders interessant ist dies für immersive Plattformen wie das Apple Vision Pro Headset. Nutzer:innen könnten zukünftig reale Umgebungen einfacher digitalisieren und in virtuellen Räumen nutzen.
Apple und die beteiligten Universitäten haben den Quellcode von Matrix3D auf GitHub veröffentlicht. Das begleitende Paper wurde auf arXiv publiziert. Zudem steht eine Website mit Beispielvideos und interaktiven Punktwolken-Darstellungen zur Verfügung.
Matrix3D markiert einen wichtigen Schritt in Richtung effizienter und zugänglicher 3D-Rekonstruktionstechnologien. Die Kombination aus vereinfachter Pipeline und innovativem Training könnte den Umgang mit 3D-Daten in vielen Bereichen grundlegend verändern.
Via: https://9to5mac.com
Im Magazin lesen....