Machine Learning Algorithms for the Analysis of Data from Whole-Genome Tiling Microarrays

DSpace Repository


Dateien:

URI: http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-47351
http://hdl.handle.net/10900/49394
Dokumentart: PhDThesis
Date: 2009
Language: German
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Huson, Daniel (Prof. Dr.)
Day of Oral Examination: 2010-04-21
DDC Classifikation: 570 - Life sciences; biology
Keywords: Bioinformatik , Maschinelles Lernen , Genetische Variabilität , Microarray , Genexpression , Transkriptomanalyse , Ackerschmalwand
Other Keywords: Tiling Array , Resequenzierung
Array-based resequencing , Expression analysis , Genome annotation , Abiotic stress , Arabidopsis thaliana , Machine learning
License: http://creativecommons.org/licenses/by-nc-nd/3.0/de/deed.de http://creativecommons.org/licenses/by-nc-nd/3.0/de/deed.en
Show full item record

Inhaltszusammenfassung:

Im Rahmen dieser Dissertation wurden auf maschinellen Lerntechniken basierende, bioinformatische Methoden entwickelt, um den Kenntnisstand in Bezug auf zentrale molekularbiologische Fragen am Beispiel der Modellpflanze Arabidopsis thaliana zu erweitern: Inwiefern unterscheiden sich die Genome einzelner Individuen derselben Spezies? Sequenzvariation (Polymorphismen) im großen Stil zu charakterisieren ist die Voraussetzung, um adaptive, quantitative phänotypische Merkmale auf die ursächlichen genetischen Varianten zurückführen zu können. Die häufigste Klasse von Sequenzvarianten sind Einzelnukleotidänderungen (SNPs). Neben der Erkennung von SNPs untersuchten wir Genombereiche genauer, in denen SNP-Erkennungsverfahren nur unzureichend funtionieren: Einerseits hochvariable Regionen, für die paradoxerweise nur sehr wenige SNPs identifiziert werden können, und andererseits weitere Varianten, wie Insertionen und Deletionen. Mit unserer neu entwickelten Methode (mPPR) fanden wir hunderttausende polymorphe Regionen (unter denen wir <3% Falschpositive erwarten), die teils SNPs beinhalten, teils Deletionen mit einigen wenigen bis zu tausenden von Nukleotiden. Aus diesen Resultaten entstand erstmal ein umfassendes, hochaufgelöstes Bild der Polymorphismenmuster in Arabidopsis, mit drastischen Unterschieden zwischen kodierenden und nichtkodierenden Bereichen, aber auch zwischen einzelnen Genen und Genfamilien. Wie sieht die Gesamtheit der Gene eines Organismus' aus, in welchen Geweben und Entwicklungsstadien werden sie transkribiert, und wie verändert sich ihre Expression unter Umwelteinflüssen? Entsprechende Transkriptomanalysen bilden die Basis zur Rekonstruktion des Genregulationsnetzwerks, welches die Steuerung zellulärer Prozesse, z.B. der Zelldifferenzierung, beschreibt. Wir entwickelten ein Verfahren zur Transkriptsuche (mSTAD), das Gene aufgrund von Expressionsmessungen erkennen kann. Damit identifizierten wir tausende neue Transkripte, die ungeachtet großer vorhergehender Annotationsprojekte bisher unbekannt waren. Durch Validierungsexperimente konnten >75% der Kandidaten bestätigt und so mSTAD's Genauigkeit experimentell belegt werden. Darüber hinaus fanden wir hunderte von genomischen Regionen, die spezifisch unter Stressbedingungen transkribiert werden. Sie umfassen sowohl zuvor unbekannte Gene, als auch bisher fehlerhaft annotierte Bereiche bereits bekannter Gene. Unsere bioinformatischen Methoden basieren auf Daten von sogenannten Tiling-Arrays, einer hochentwickelten DNS-Microarray-Technologie, die durch genomweite Messungen in einem feinen Raster die Detektion von Genomvariation sowie Transkriptomanalysen ermöglicht. So konnten wir erstmals das ganze Genom untersuchen und mussten uns nicht auf wenige Fragmente beschränken. Da unsere Resultate die Grundlage für weitergehende Forschung bilden, ist hohe Genauigkeit der Analysen von größter Bedeutung. Microarray-Daten kennzeichnet jedoch typischerweise starkes Rauschen. Wir entwickelten deshalb neue Vorverarbeitungstechniken um systematisches Rauschen, insbesondere Sondensequenzeffekte, zu verringern. Wir zeigten den klaren Nutzen dieser Technik für anschließende Transkripterkennung. Vergleichbare, hier untersuchte Vorverarbeitungsmethoden versagten hingegen unter diesem zentralen Gesichtspunkt. Bei der Erkennung polymorpher Regionen oder transkribierter Bereiche sind wir mit Segmentationspoblemen konfrontiert, die sich mit kürzlich entwickelten maschinellen Lernmethoden, insbesondere den Hidden Markov Support Vector Machines, sehr gut lösen lassen. Im Falle der Transkriptsuche konnten wir mSTAD's überlegene Genauigkeit im Vergleich zu anderen gängigen Analysetechniken empirisch belegen, wohingegen zur Erkennung polymorpher Regionen keine konkurrierenden Methoden existierten. Obwohl für Arabidopsis-Daten entwickelt, sind unsere Methoden anwendbar auf vergleichbare Datensätze, die für viele weitere Organismen existieren. Wir diskutieren ferner ihre Eignung für die Analyse verwandter Daten, wie sie z.B. mit neuen Sequenzierungstechniken erzeugt werden.

Abstract:

In this work we developed machine learning-based methods with the aim to further our understanding regarding fundamental questions of molecular biology, using as our example the model plant Arabidopsis thaliana: What are the differences between genomes of individuals belonging to the same species? Characterizing sequence variants (polymorphisms) genome-wide is a prerequisite for establishing causal links between adaptive quantitative traits and the underlying genetic variants. Single-nucleotide polymorphisms (SNPs) are the most abundant class of polymorphisms. In addition to SNP detection, we investigated genomic regions in which SNP calling algorithms tend to fail: on the one hand, highly variable sequence tracts, for which, paradoxically, only very few SNPs can be identified and, on the other hand, additional polymorphism types, such as insertions and deletions. With our newly developed method (mPPR) we discovered hundreds of thousands of polymorphic regions (with a false-discovery rate of <3%). These correspond, in part, to SNPs, but also contain deletions ranging from a few to several thousand nucleotides in length. Our results revealed, for the first time, a comprehensive, fine-scale picture of the polymorphism patterns in A. thaliana with dramatic differences between coding and noncoding regions and also between individual genes and gene families. What is an organism's full complement of genes, in which tissues and developmental stages are they transcribed and how is their expression altered in response to environmental changes? Transcriptome studies have provided the foundation for reconstruction of the gene regulatory network, which describes the control of cellular processes, e.g., during cell differentiation. We developed a transcript identification method (mSTAD), which recognizes genic expression patterns. With mSTAD, we discovered thousands of new transcripts that were not previously known despite extensive annotation efforts. Validation experiments confirmed >75% of the tested cases, corroborating mSTAD's high accuracy. Moreover, we found hundreds of genomic regions with evidence of stress-specific transcription. These include previously unannotated genes as well as wrongly annotated parts of known genes. Our computational methods are based on data generated with so-called tiling arrays, an advanced DNA microarray which interrogates a whole genome in regular intervals. It facilitates both the detection of polymorphisms and transcriptome profiling. Using this technology our analyses targeted, for the first time, the whole genome and were not restricted to a few fragments. Since the resulting data resources are the basis for further research, high accuracy was imperative. However, microarray data typically exhibits high noise levels. We therefore devised new preprocessing techniques to reduce systematic noise, in particular probe sequence effects. We demonstrated the benefit of this technique for subsequent transcript identification. In contrast to that, comparable methods investigated here failed in this aspect. In our attempts to detect polymorphic or transcribed regions, we were facing segmentation problems. Recently developed machine learning algorithms, especially Hidden Markov Support Vector Machines, were found to be very well-suited for solving these problems. In the case of transcript identification, we could show mSTAD's superior accuracy compared to other widely used methods. Since no comparable methods exist for polymorphic region prediction, however, no such comparison was possible. Although originally developed for the analysis of A. thaliana data, our methods can nevertheless be broadly applied to similar data sets, which already exist for a number of organisms. We furthermore discuss their applicability to related data as it is, for instance, being generated by next-generation sequencing technologies.

This item appears in the following Collection(s)

cc_by-nc-nd Except where otherwise noted, this item's license is described as cc_by-nc-nd