Visuelles robustes räumliches Szenenverständnis in dynamischen Umgebungen unter Verwendung von intermediären Darstellungen
Die visuelle 3D-Erfassung einer Szene in Echtzeit und die gleichzeitige Bestimmung der Position und Orientierung der Kamera (6DoF, Freiheitsgrad) im Raum ist eine Kerntechnologie, die in zahlreichen Bereichen wie dem autonomen Fahren, der Robotik oder der Medizintechnik Anwendung findet. Das Ziel des MOVEON-Projekts ist die Entwicklung einer neuartigen Generation von visuellen Positionierungssystemen, die über die klassische Lokalisierung und Kartierung hinausgeht, die sich derzeit nur auf die Rekonstruktion von Punktwolken konzentriert. Im Gegensatz dazu ist es unser Ziel, eine 6DoF-Positionierung und ein globales Szenenverständnis in unkontrollierten und dynamischen Umgebungen (z.B. überfüllten Straßen) zu ermöglichen, die sich mit der Größe der Umgebung gut skalieren lässt und die durch die Wiederverwendung konsistenter Karten über einen längeren Zeitraum hinweg dauerhaft eingesetzt werden kann. MOVEON wird den Stand der Technik im visionsbasierten, räumlich-zeitlichen Szenenverständnis vorantreiben, indem es neuartige maschinelle Lernansätze mit geometrischem Schließen (geometric-reasoning) verbindet. Die auf Deep-Learning basierende Erkennung und das Verständnis von High-Level-Konzepten wie Fluchtpunkten oder großen Objektklassen werden als einheitliche Bausteine für eine räumlich-zeitliche Lokalisierung und die Rekonstruktion der Umgebung dienen, die geometrisches Schließen als zugrundeliegende Unterstützung verwenden wird. Dadurch entstehen „hybride Systeme“, die die Stärke beider Technologien, tiefes Lernen und geometrisches Schließen, vereinen und eine hohe Robustheit sowie hohes Erklärbarkeitspotential (im Gegensatz zu „End-to-End Learning“) besitzen.
Partners
Gilles Simon, INRIA Nancy, Team MAGRIT