How well can we predict where people look in images?

DSpace Repository


Dateien:

URI: http://hdl.handle.net/10900/104110
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1041100
http://dx.doi.org/10.15496/publikation-45488
Dokumentart: PhDThesis
Date: 2020-07-28
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Biologie
Advisor: Bethge, Matthias (Prof. Dr.)
Day of Oral Examination: 2020-03-13
DDC Classifikation: 004 - Data processing and computer science
570 - Life sciences; biology
Keywords: Augenbewegung , Blickbewegung , Deep learning , Benchmarking
Other Keywords:
saliency
eye movements
gaze movement
machine learning
Baysian decision theory
transfer learning
License: http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Welche Bereiche von Bildern Menschen anschauen ist eine interessante Fragestellung. Sie hat wissenschaftliche Implikationen im Bereich der visuellen und kognitiven Verarbeitung und des Verhaltens, ermöglicht aber auch Anwendungen wie zum Beispiel das intelligente Zuschneiden von Bildern. Es ist bereits seit langer Zeit üblich, sogenannte "Salienz-Modelle" zu konstruieren, die versuchen vorherzusagen, wo Menschen in Bildern hinschauen. Die vorliegende Arbeit beschäftigt sich mit zwei verschiedenen Aspekten des Problems: zum einen mit dem Aspekts des Bechmarkings und Vergleichs von Modellen und zum anderen mit dem Aspekt der Konstruktion besserer Modelle. Der bisherige Stand des Benchmarkings im Feld der Salienzforschung war teilweise problematisch: Forscher nutzten viele verschiedene Metriken um die Qualität der Modellvorhersagen in Form sogenannter "Salienzkarten" zu bewerten. Je nach verwendeter Metrik kann das selbe Modell oft sowohl als State-of-the-art als auch als nahe an Chance erscheinen. Diese Inkonsistenz wurde üblicherweise mit der Annahme erklärt, dass die Metriken grundverschiedene Dinge messen. Dementsprechend müsste man sich je nach geplanter Anwendung eines Modelles für die eine oder andere Metrik entscheiden und schlechtes Abschneiden in anderen Metriken akzeptieren. Dadurch wurde es aber sehr schwer, Fortschritt und Stand der Forschung zu bewerten. Hier zeigen wir, dass der eigentliche Grund für die inkonsistenten Modellbewertungen darin liegt, dass die Metriken Salienzkarten auf sehr verschiedene Art und Weise interpretieren. Wenn man Salienzmodelle als probabilistische Modelle formuliert, die Fixationsdichten für Bilder vorhersagen, und diese Modelle mit geeigneten Kostenfunktionen wie zum Beispiel log-likelihood trainiert, ist es möglich, die Modellvorhersagen in verschiedenen metrik-spezifischen Salienzkarten zu kodieren. Dadurch können die Salienzkarten berücksichtigen, wie einzelne Metriken die Salienzkarten interpretieren. Im Ergebnis erhält man Modellbewertungen, die über verschiedene Metriken hinweg sehr konsistent sind. Dies löst das Problem des Benchmarkings im Bereich der Salienzmodelle weitgehend und erlaubt einen klareren Blick darauf, wie gut Modelle bereits sind und wieviel besser sie noch werden könnten. Neben dem Benchmarking beschäftigt sich diese Arbeit auch damit, bessere Modelle zur Vorhersage von Fixationen zu finden und zu verstehen, welche Features relevant sind, um Fixationen gut vorherzusagen. Dazu führen wir das Konzept des Transfer-Learnings mit Features von tiefen neuronalen Netzen in das Feld der Salienzmodellierung ein. Dies erlaubt uns Modelle zu konstruieren, die die Fortschritte im Bereich des tiefen Lernens ausnutzen können, die in den letzten Jahren erziehlt wurden. Mit unseren Salienzmodellen "DeepGaze I" und "DeepGaze II" konnten wir den Anteil der erklärten Information im MIT1003-Datensatz von vorher 34% erst auf 46.1% und schließlich auf 80.3% erhöhen. Dies setzt einen neuen State-of-the-art im MIT Saliency Benchmark und zeigt, wie wichtig high-level-features für die Vorhersage von Fixationen sind. Die Architektur von DeepGaze II erlaubt es, verschiedene Features daraufhin zu vergleichen, wie gut sie sich zur Vorhersage von fixierten Orten in Bildern eignen. Wir zeigen, dass komplexe tiefe Features zwar notwendig sind um hohe Performanz zu erreichen, gleichzeitig aber sogar einfachste Intensitäts- und -Kontrast-Features zu höherer Performanz führen können als sie von allen vorigen Modellen erreicht wurde, die noch nicht Transfer-Learning verwendet haben.

Abstract:

Understanding where people look in images is an interesting quest, both for the scientific implications in terms of visual and cognitive processing and behaviour as well as due to its potential applications such as smart image cropping. The field has a long history of computational modeling, resulting in a substantial number of so-called "saliency models" trying to predict where people look in images. Here, two aspects of the problem are being considered: the one of benchmarking and comparing models and the one of building better models. The previous state of model benchmarking in the field was somewhat problematic: researchers used many different metrics to asses the quality of so-called saliency maps and depending on the chosen metric, the same model could be state-of-the-art or close to chance. This inconsistency was generally attributed to the metrics measuring substantially different things. Depending on the intended application, one would need to decide for the metric. This made it very hard to asses progress and state-of-the-art in the field. Here, we show that the underlying cause for the disagreement between saliency metrics is actually that they interpret saliency maps in highly different ways. By formulating saliency models as probabilistic models of fixation density prediction and optimizing them using suitable loss functions like log-likelihood, one can encode the model predictions into different metric-specific saliency maps that account for how the metric interprets the saliency maps. Doing this results in highly consistent metric scores and ranks and mostly solves the benchmarking problem in saliency, allowing for a clearer picture of state-of-the-art and what's still missing. Besides benchmarking, this thesis focuses on building better models of fixation prediction and on understanding which features are relevant for predicting fixations well. We introduce transfer learning from deep convolutional features to the field of saliency modeling to create saliency models that utilize recent advances in the field of deep learning. With our saliency models "DeepGaze I" and "DeepGaze II", we were able to increase the percentage of explained information on the MIT1003 dataset from previously 34% first to 46.1% and subsequently to 80.3%. This sets a new state-of-the-art in the MIT Saliency Benchmark and shows the importance of high-level features for fixation prediction. The model architecture of DeepGaze II allows for a principled comparison of the predictive power of different features for fixation locations. We show that while complex deep features are crucial to reach high performance, even very simple intensity-contrast features still can perform better than all previous models that don't use transfer-learning.

This item appears in the following Collection(s)