Object-Level Dynamic Scene Reconstruction With Physical Plausibility From RGB-D Images

DSpace Repository


Dateien:

URI: http://hdl.handle.net/10900/152469
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1524696
http://dx.doi.org/10.15496/publikation-93808
Dokumentart: PhDThesis
Date: 2024-03-28
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Stückler, Jörg-Dieter (Prof. Dr.)
Day of Oral Examination: 2023-10-11
DDC Classifikation: 004 - Data processing and computer science
Keywords: Maschinelles Sehen , Maschinelles Lernen , Künstliche Intelligenz
Other Keywords: Objektrekonstruktion
Objektverfolgung
Differenzierbare Physiksimulation
Differentiable Physics
Object Tracking
Object Reconstruction
License: http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Menschen haben die bemerkenswerte Fähigkeit, Objekte in ihrer Umgebung wahrzunehmen und mit ihnen zu interagieren. Sie können ohne Anstrengung Objekte in visuellen Daten segmentieren und haben ein intuitives Verständnis davon, wie die Physik Objekte beeinflusst. Im Gegensatz dazu sind Roboter bisher oft auf aufgabenspezifisch zugeschnittene Umgebungen begrenzt, da sie keine vielseitige und genaue Szenenrepräsentation rekonstruieren können. In dieser Dissertation kombinieren wir RGB-D Videodaten mit Hintergrundwissen über die Physik der realen Welt, um eine solche Repräsentation für Roboter zu entwickeln. Unsere Beiträge bestehen aus zwei Hauptbestandteilen: ein Werkzeug zur Verfolgung bewegter Objekte, und Optimierungsansätze, welche Rekonstruktionen der 3D Form basierend auf physikalischer Plausibilität verbessern können. Das Werkzeug zur Verfolgung bewegter Objekte, "EM-Fusion", detektiert, segmentiert, rekonstruiert und verfolgt Objekte in RGB-D Videodaten. Wir schlagen einen probabilistischen Datenassoziationsansatz vor, um die Pixel im Bild den unterschiedlichen bewegten Objekten in der Szene zuzuordnen. Dieser erlaubt uns, die Objekte und die Hintergrundszene mit Genauigkeit nach dem Stand der Technik und Robustheit gegenüber Verdeckungen zu verfolgen und zu rekonstruieren. Wir erforschen zwei Ansätze, die rekonstruierte Form von bewegten Objekten basierend auf physikalischer Plausibilität weiter zu optimieren. Der erste hiervon, "Co-Section", schließt physikalische Plausibilität durch Argumentationen über den leeren Raum um ein Objekt herum ein. Wir stellen fest, dass keine zwei Objekte denselben Raum zur selben Zeit einnehmen können und dass die Tiefenbilder im Eingabevideo eine Schätzung von beobachtetem leeren Raum liefern. Basierend auf diesen Feststellungen schlagen wir Hüllen- und Überschneidungsbeschränkungen vor, welche wir mit den beobachteten Oberflächen in einem globalen Optimierungsansatz kombinieren. Verglichen mit EM-Fusion, welches nur die beobachteten Oberflächen rekonstruiert, optimiert Co-Section wasserdichte Objektformen. Diese wasserdichten Formen liefern eine grobe Schätzung über Oberflächen, die nicht direkt gesehen wurden, und können als Initialisierung für weitere Verbesserung, z.B. durch interaktive Wahrnehmung, dienen. Im zweiten Optimierungsansatz, "DiffSDFSim", argumentieren wir über Objektformen basierend auf physikalisch plausibler Objektbewegung. Wir stellen fest, dass Objekttrajektorien nach Kollisionen von der Objektform abhängen, und erweitern eine differenzierbare Physiksimulation, um die Objektformen gemeinsam mit anderen physikalischen Eigenschaften (z.B. Kräfte, Massen, Reibung) basierend auf der Bewegung der Objekte und ihrer Interaktionen zu optimieren. Unsere Hauptbeiträge sind die Verwendung vorzeichenbehafteter Distanzfunktionen zur Repräsentation von Objektformen, und eine neue Methode zur Berechnung von Gradienten, welche die Abhängigkeit des Kontaktzeitpunkts von der Objektform modelliert. Wir zeigen, dass unser Ansatz Referenzformen durch das Anpassen auf Referenztrajektorien und Tiefenmessungen gut rekonstruiert. Weiterhin werden die wahren Trajektorien in der Simulation mit den optimierten Formen und physikalischen Eigenschaften gut rekonstruiert, was Vorhersagen über zukünftige Bewegungen der Objekte durch die Physiksimulation zulässt. Wir gehen davon aus, dass unsere Beiträge nützliche Bausteine in der Entwicklung von 3D Umgebungswahrnehmung für Roboter sein können. Die Rekonstruktion einzelner Objekte, wie in EM-Fusion, ist ein Schlüsselbaustein, welche für die Interaktion mit Objekten benötigt wird. Vervollständigte Formen, wie sie Co-Section bereitstellt, liefern nützliche Hinweise, um Interaktionen wie das Greifen von Objekten zu planen. Schließlich erlaubt die Schätzung von Form- und anderen physikalischen Parametern mittels differenzierbarer Physiksimulation, wie in DiffSDFSim, Objekte zu simulieren und damit die Effekte von Interaktionen vorherzusagen. Zukünftige Arbeiten könnten die präsentierten Ansätze zur interaktiven Wahrnehmung dynamischer Umgebungen erweitern, indem diese Vorhersagen mit beobachteten Interaktionen in der echten Welt verglichen werden, um die Rekonstruktionen und physikalischen Parameterschätzungen weiter zu verbessern.

Abstract:

Humans have the remarkable ability to perceive and interact with objects in the world around them. They can easily segment objects from visual data and have an intuitive understanding of how physics influences objects. By contrast, robots are so far often constrained to tailored environments for a specific task, due to their inability to reconstruct a versatile and accurate scene representation. In this thesis, we combine RGB-D video data with background knowledge of real-world physics to develop such a representation for robots. Our contributions can be separated into two main parts: a dynamic object tracking tool and optimization frameworks that allow for improving shape reconstructions based on physical plausibility. The dynamic object tracking tool "EM-Fusion" detects, segments, reconstructs, and tracks objects from RGB-D video data. We propose a probabilistic data association approach for attributing the image pixels to the different moving objects in the scene. This allows us to track and reconstruct moving objects and the background scene with state-of-the art accuracy and robustness towards occlusions. We investigate two ways of further optimizing the reconstructed shapes of moving objects based on physical plausibility. The first of these, "Co-Section", includes physical plausibility by reasoning about the empty space around an object. We observe that no two objects can occupy the same space at the same time and that the depth images in the input video provide an estimate of observed empty space. Based on these observations, we propose intersection and hull constraints, which we combine with the observed surfaces in a global optimization approach. Compared to EM-Fusion, which only reconstructs the observed surface, Co-Section optimizes watertight shapes. These watertight shapes provide a rough estimate of unseen surfaces and could be useful as initialization for further refinement, e.g., by interactive perception. In the second optimization approach, "DiffSDFSim", we reason about object shapes based on physically plausible object motion. We observe that object trajectories after collisions depend on the object's shape, and extend a differentiable physics simulation for optimizing object shapes together with other physical properties (e.g., forces, masses, friction) based on the motion of the objects and their interactions. Our key contributions are using signed distance function models for representing shapes and a novel method for computing gradients that models the dependency of the time of contact on object shapes. We demonstrate that our approach recovers target shapes well by fitting to target trajectories and depth observations. Further, the ground-truth trajectories are recovered well in simulation using the resulting shape and physical properties. This enables predictions about the future motion of objects by physical simulation. We anticipate that our contributions can be useful building blocks in the development of 3D environment perception for robots. The reconstruction of individual objects as in EM-Fusion is a key ingredient required for interactions with objects. Completed shapes as the ones provided by Co-Section provide useful cues for planning interactions like grasping of objects. Finally, the recovery of shape and other physical parameters using differentiable simulation as in DiffSDFSim allows simulating objects and thus predicting the effects of interactions. Future work might extend the presented works for interactive perception of dynamic environments by comparing these predictions with observed real-world interactions to further improve the reconstructions and physical parameter estimations.

This item appears in the following Collection(s)