Interpretable Machine Learning Approaches in Computational Biology

DSpace Repository

Show simple item record

dc.contributor.advisor Kohlbacher, Oliver (Prof. Dr.) de_DE
dc.contributor.author Briesemeister, Sebastian de_DE
dc.date.accessioned 2012-03-13 de_DE
dc.date.accessioned 2014-03-18T10:24:11Z
dc.date.available 2012-03-13 de_DE
dc.date.available 2014-03-18T10:24:11Z
dc.date.issued 2012 de_DE
dc.identifier.other 361768710 de_DE
dc.identifier.uri http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-60970 de_DE
dc.identifier.uri http://hdl.handle.net/10900/49645
dc.description.abstract Machine learning has become an essential tool for analyzing, predicting, and understanding biological properties and processes. Machine learning models can substantially support the work of biologists by reducing the number of expensive and time-consuming experiments. They are able to uncover novel properties of biological systems and can be used to guide experiments. Machine learning models have been successfully applied to various tasks ranging from gene prediction to three-dimensional structure prediction of proteins. However, due to their lack of interpretability, many biologists put only little trust in the predictions made by computational models. In this thesis, we show how to overcome the typical "black box" character of machine learning algorithms by presenting two novel interpretable approaches for classification and regression. In the first part, we introduce YLoc, an interpretable classification approach for predicting the subcellular localization of proteins. YLoc is able to explain why a prediction was made by identifying the biological properties with the strongest influence on the prediction. We show that interpretable predictions made by YLoc help to understand a protein's localization and, moreover, can assist biologists in engineering the location of proteins. Furthermore, YLoc returns confidence scores, making it possible for biologists to define their level of trust in individual predictions. In the second part, we show how our two novel confidence estimators, CONFINE and CONFIVE, can improve the interpretability of MHC-I-peptide binding prediction. In contrast to plain affinity values predicted by usual regression models, CONFINE and CONFIVE estimate affinity intervals, which provide a very natural interpretation of confidence. While low confidence predictions exhibit fairly large intervals, reliable predictions yield a very small range of affinities. We show that distinguishing between reliable and unreliable predictions is important for discovering and engineering reliable epitopes for vaccines. The interpretable approaches presented in this thesis are a significant step forward towards making machine learning methods more transparent to the users and, thus, towards improving the acceptance of computational methods. en
dc.description.abstract Maschinelles Lernen ist zu einem unverzichtbaren Werkzeug für die Analyse, Vorhersage und für das Verständnis biologischer Merkmale und Prozesse geworden. Als Alternative zu Experimenten im Labor, die oft teuer und zeitintensiv sind, können maschinelle Lernmodelle die Arbeit von Biologen erheblich erleichtern. So können beispielsweise neue Merkmale biologischer Systeme sowie Ansatzpunkte für Experimente gefunden werden. Maschinelles Lernen wurde erfolgreich für verschiedene Aufgaben, von der Genvorhersage bis hin zur Vorhersage der dreidimensionalen Struktur von Proteinen, eingesetzt. Aufgrund der schlechten Interpretierbarkeit von Vorhersagen computergestützter Lernverfahren, haben Biologen jedoch oft nur wenig Vertrauen in diese. Im Rahmen dieser Dissertation entwickeln wir daher neue Ansätze um die Klassifikation und die Regressionsanalyse für biologische Problemstellungen interpretierbarer und damit nachvollziehbarer zu machen. Im ersten Teil der Dissertation stellen wir YLoc vor, ein neues interpretierbares Klassifikationsverfahren zur Vorhersage der subzellulären Lokalisation von Proteinen. YLoc ist in der Lage Begründungen für eine gemachte Vorhersage zu geben, indem es die biologischen Merkmale mit dem größten Einfluss auf die Vorhersage identifiziert. Interpretierbare Vorhersagen von YLoc können helfen die Lokalisierung von Proteinen besser nachzuvollziehen und ferner Biologen bei der Planung von Experimenten, die Aufschluß über mögliche Änderung der Lokalisation von Proteinen geben sollen, zu unterstützen. Darüber hinaus bewertet YLoc die Zuverlässigkeit einzelner Vorhersagen, wodurch es Biologen möglich ist, das Maß an Vertrauen in Vorhersagen individuell abzuwägen. Im zweiten Teil dieser Arbeit stellen wir CONFINE und CONFIVE vor, zwei neue Verfahren zur Konfidenzschätzung von Vorhersagen, welche die Interpretierbarkeit von MHC-I-Bindungsvorhersagen entscheidend verbessern können. Im Gegensatz zu üblichen Regressionsmodellen, welche lediglich Affinitätswerte vorhersagen, können CONFINE und CONFIVE Affinitätsintervalle schätzen. Diese stellen eine intuitive Interpretation von Verlässlichkeit dar. Während weniger verlässliche Vorhersagen durch breite Affinitätsintervalle auffallen, weisen sichere Vorhersagen einen sehr kleinen Bereich möglicher Affinitäten auf. Wir können weiterhin zeigen, dass die Unterscheidung zwischen verlässlichen und unsicheren Vorhersagen wichtig für das Identifizieren und Verbessern von Epitopen in der Impfstoffgewinnung ist. Die in dieser Arbeit vorgestellten interpretierbaren Vorhersagemethoden stellen einen wichtigen Schritt in der Entwicklung transparenter maschineller Lernmethoden dar und können die Akzeptanz von computergestützte Methoden maßgeblich verbessern. de_DE
dc.language.iso en de_DE
dc.publisher Universität Tübingen de_DE
dc.rights ubt-podok de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en en
dc.subject.classification Maschinelles Lernen , Bereichsschätzung , Bioinformatik de_DE
dc.subject.ddc 004 de_DE
dc.subject.other Interpretierbarkeit , Konfidenzschätzung de_DE
dc.subject.other Interpretable , Machine learning , Confidence estimation , Computational biology en
dc.title Interpretable Machine Learning Approaches in Computational Biology en
dc.title Interpretierbare Maschinelle Lernansätze in der Bioinformatik de_DE
dc.type PhDThesis de_DE
dcterms.dateAccepted 2012-02-29 de_DE
utue.publikation.fachbereich Informatik de_DE
utue.publikation.fakultaet 7 Mathematisch-Naturwissenschaftliche Fakultät de_DE
dcterms.DCMIType Text de_DE
utue.publikation.typ doctoralThesis de_DE
utue.opus.id 6097 de_DE
thesis.grantor 7 Mathematisch-Naturwissenschaftliche Fakultät de_DE

Dateien:

This item appears in the following Collection(s)

Show simple item record