Inhaltszusammenfassung:
Diese Dissertation ist von den Unzulänglichkeiten zeitgenössischer KI-Modelle im Vergleich zu den kognitiven Fähigkeiten des Menschen motiviert.
Ihre zentrale Hypothese ist, dass diese Einschränkungen aus der Unfähigkeit der Modelle resultieren, strukturierte Objektrepräsentationen der Welt zu lernen und aufrechtzuerhalten.
Die übergeordnete Forschungsfrage ist, wie solche Repräsentationen in die heutigen führenden KI-Modelle, insbesondere neuronale Netzwerke, integriert werden können.
Diese Dissertation befasst sich mit einer Klasse von Methoden, die versuchen, dieses Problem zu lösen, genannt objektzentrisches Repräsentationslernen.
Dabei liefert sie zwei Beiträge: (1) die unüberwachte Entdeckung von Objekten in komplexen, realen Daten zu ermöglichen und (2) die Vorteile objektzentrischer Repräsentationen für das Lernen autonomer Agenten aufzuzeigen.
Eine bedeutende Einschränkung des objektzentrischen Repräsentationslernens war, dass es Objekte nur in einfachen, synthetischen Datensätzen erfolgreich entdeckte.
Der Hauptbeitrag dieser Dissertation ist ein Ansatz, der diese Einschränkung überwindet und es erstmals ermöglicht, natürliche Bilder und Videos in objektzentrische Repräsentationen zu zerlegen.
Um dies zu erreichen, führt die Dissertation Mechanismen ein, die semantische ``inductive biases'' in objektzentrische Modelle integriert.
Diese Mechanismen funktionieren, indem das Modell darauf trainiert wird, Ziele vorherzusagen, die aus vortrainierten semantischen Repräsentationen abgeleitet werden, welche durch selbstüberwachtes Lernen gewonnen werden können.
Speziell für Videodaten wird ein alternatives Prädiktionsziel vorgeschlagen, das zeitliche Korrelationen zwischen vortrainierten Repräsentationen enkodiert und einen zusätzlichen ``inductive bias'' hin zu einer Gruppierung von Objekten durch konsistente Bewegung einführt.
Die resultierenden Modelle erreichen erstklassige Ergebnisse und skalieren auf reale Datensätze wie PASCAL VOC, COCO und YouTube-VIS.
Als weitere Beiträge präsentiert diese Dissertation zwei Fallstudien, die die Vorteile objektzentrischer Repräsentationen für Anwendungen veranschaulichen, insbesondere im Bereich des Lernens autonomer Agenten mit Reinforcement Learning (RL).
In der ersten Fallstudie wird ein Algorithmus für selbstüberwachtes RL vorgestellt; durch die Nutzung objektzentrischer Repräsentationen lernt der Agent, einfache Teilziele zu kombinieren, um Aufgaben in komplexen Umgebungen mit mehreren Objekten zu erfüllen.
In der zweiten Fallstudie wird ein Maß für den kausalen Einfluss zwischen Agent und Objekten abgeleitet; dieses Maß kann auf verschiedenste Weisen in RL-Algorithmen integriert werden, um deren Dateneffizienz erheblich zu verbessern.
Die Ergebnisse heben das Potenzial objektzentrischer Repräsentationen als ``inductive bias'' für Agenten in der physischen Welt hervor und demonstrieren wichtige Eigenschaften wie Interpretierbarkeit, Generalisierung und Dateneffizienz.
Durch diese Beiträge treibt die Dissertation das Feld des objektzentrischen Repräsentationslernens voran, demonstriert dessen Potenzial und ebnet den Weg für praktische Anwendungen in der realen Welt.
Abstract:
This thesis is motivated by the shortcomings of contemporary AI models compared to human cognitive abilities.
Its central hypothesis is that these limitations arise from the model's inability to learn and maintain structured object representations of the world.
The overarching research question is how to integrate such representations with today's leading AI models, specifically neural networks.
This thesis is concerned with a class of methods that attempt to solve this problem, called object-centric representation learning.
In particular, its contributions are twofold: (1) enabling the unsupervised discovery of objects in complex, real-world data, and (2) demonstrating the benefits of object-centric representations for autonomous agent learning.
A significant limitation of object-centric representation learning was that it only successfully discovered objects on simple, synthetic datasets.
The major contribution of this thesis is an approach that overcomes this limitation and, for the first time, allows models to decompose natural images and videos into object-centric representations.
To achieve this, the thesis introduces mechanisms that integrate semantic inductive biases into object-centric models.
These mechanisms work by training the model to predict targets derived from pre-trained semantic features, which can be obtained from self-supervised learning methods in a fully unsupervised way.
Specifically for video data, an alternative prediction target encoding temporal correlations between pre-trained features is proposed, introducing an additional inductive bias toward grouping objects by consistent motion.
The resulting models achieve state-of-the-art results and scale to real-world datasets such as PASCAL VOC, COCO, and YouTube-VIS\@.
As further contributions, this thesis presents two case studies that illustrate the advantages of object-centric representations for applications, specifically in the domain of autonomous agent learning with reinforcement learning (RL).
In the first case study, an algorithm for self-supervised RL is introduced; leveraging object-centric representations, the agent learns to compose simple sub-goals to accomplish tasks in complex, multi-object environments.
In the second case study, a measure of causal influence between agent and objects is derived; this measure can be integrated into RL algorithms in various ways to significantly improve their sample efficiency.
The results highlight the potential of object-centric representations as an inductive bias for agent systems in the physical world, demonstrating important properties such as interpretability, generalization, and data efficiency.
Through these contributions, the thesis advances the field of object-centric representation learning, demonstrating its potential and paving the way for practical real-world applications.