Learning thematic role relations for lexical semantic nets

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-20059
http://hdl.handle.net/10900/46255
Dokumentart: Dissertation
Erscheinungsdatum: 2004
Sprache: Englisch
Fakultät: 5 Philosophische Fakultät
Fachbereich: Sonstige - Neuphilologie
Gutachter: Hinrichs, Erhard
Tag der mündl. Prüfung: 2004-12-08
DDC-Klassifikation: 400 - Sprache, Linguistik
Schlagworte: Linguistische Datenverarbeitung , Maschinelles Lernen , Semasiologie , Ontologie <Wissensverarbeitung> , Thematische Relation
Freie Schlagwörter: Selektionsrestriktionen , Wortnetz
Natural Language Processing , Machine Learning , Thematic Relation , Selectional Restrictions , WordNet
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en
Gedruckte Kopie bestellen: Print-on-Demand
Zur Langanzeige

Inhaltszusammenfassung:

Die vorliegende Dissertation präsentiert eine Strategie zur Akquisition thematischer Rollen-Relationen (wie AGENT, PATIENT oder INSTRUMENT) mit Hilfe statistischer Korpusanalyse, zum Zweck der semi-automatischen Erweiterung lexikalisch-semantischer Netze. Insbesondere konzentriert sich diese Arbeit auf Wortnetze im Stil von WordNet (Fellbaum 1998) und EuroWordNet (Vossen 1999). Lexikalisch-semantische Netze repräsentieren Wortbedeutungen mit Hilfe semantischer Relationen zwischen Wörtern und/oder Wortkonzepten. Semantische (thematische) Rollen-Relationen sind konzeptuelle Relationen zwischen Verben und ihren nominalen Argumenten (z.B. <eat>--AGENT--<human> oder <eat>--PATIENT--<food>). Solche Relationen erfassen Selektionsrestriktionen von Verben. Aus diesem Grund ist die Akquisition von thematischen Rollen-Relationen untrennbar verbunden mit der Akquisition von Selektionsrestriktionen. Folglich besteht der Kern einer Strategie für das Lernen von Rollen-Relationen in einer Methode zur Akquisition von Selektionsrestriktionen (genauer gesagt, Selektionspräferenzen). Für letzteres Problem sind eine Reihe von Lösungsansätzen auf der Basis syntaktisch annotierter Korpora und WordNet vorgeschlagen worden. Für die Akquisition selektionaler Präferenzen eines bestimmten Verbs für ein bestimmtes Argument werden die entsprechenden Komplement-Nomen dieses Verbs aus dem Korpus extrahiert, und statistische Methoden ermitteln Generalisierungen über diesen Nomen, welche als eine Menge von WordNet-Nomen-Konzepten repräsentiert werden. Einer dieser Ansätze - die von (Abe & Li 1996) vorgeschlagene Methode - bildet den Ausgangspunkt meiner Untersuchungen. Jedoch ist dieses Verfahren nicht direkt für das Lernen von Rollen-Relationen anwendbar, sondern erfordert Modifikationen und Erweiterungen für diese Aufgabe. Insbesondere sind zwei Aspekte zu berücksichtigen. Zum einen ist es entscheidend, dass sich die zur Repräsentation von Selektionspräferenzen akquirierten WordNet-Konzepte auf einer adäquaten Generalisierungsebene befinden (z.B. <food> als PATIENT von <eat>, anstatt <cake> oder <physical_object>). In der Arbeit wird eine Modifikation des Verfahrens entwickelt, die seine Leistungfähigkeit in dieser Hinsicht substanziell erhöht. Zum anderen akquirieren die existierenden Verfahren, da sie über syntaktischen Komplementen generalisieren, Selektionspräferenzen für syntaktische statt für semantische Argumente. Um Selektionspräferenzen für semantische Rollen zu lernen, müssen die syntaktischen Argumente, die das geparste Korpus liefert, auf die ihnen zugrunde liegenden Rollen abgebildet werden, sodass das statistische Lernverfahren so eingesetzt werden kann, dass es beispielsweise über alle (semantischen) Agenten eines Verbs generalisiert anstatt über dessen (syntaktische) Subjekte. Zu diesem Zweck wird eine Methode zur Zuordnung von syntaktischen und semantischen Argumenten (Linking) entwickelt. Ein weiterer Aspekt der Gesamtstrategie, die in dieser Arbeit präsentiert wird, ist eine adäquate Methode zur Abbildung der Verben und Nomen in den Trainingsdaten auf die entsprechenden WordNet-Konzepte, welche eine Voraussetzung für die Anwendung des Algorithmus zur Akquisition von Selektionpräferenzen darstellt. Zum Zweck der Evaluation des in dieser Arbeit entwickelten Verfahrens zur Rollen-Akquisition wird ein Gold-Standard aus der EuroWordNet-Datenbank extrahiert und detaillierte Auswertungskriterien vorgeschlagen. Insgesamt zeigen die Ergebnisse der Evaluation (Accuracy-Raten von bis zu 84%) die Effektivität des Verfahrens.

Abstract:

This thesis presents a strategy for the acquisition of thematic role relations (such as AGENT, PATIENT, or INSTRUMENT) by means of statistical corpus analysis, for the purpose of semi-automatically extending lexical-semantic nets. In particular, this work focuses on resources in the style of WordNet (Fellbaum 1998) and EuroWordNet (Vossen 1999). Lexical-semantic nets represent the meanings of words via semantic relations between words and/or word concepts. Semantic (thematic) role relations are conceptual relations which hold between verbs and their nominal arguments (e.g. <eat>--AGENT--<human> or <eat>--PATIENT--<food>). Such relations capture selectional restrictions of verbs. Therefore, the task of acquiring thematic role relations is intrinsically related to the task of acquiring selectional restrictions. Consequently, the core of a strategy for learning role relations consists in a method for learning selectional restrictions (or, more precisely, selectional preferences). For the latter task, a number of methods have been proposed which utilise syntactically analysed corpora and WordNet. To acquire the selectional preferences of a certain verb for a certain argument, the respective complement nouns of that verb are extracted from the corpus, and statistical methods are applied to generalise over these nouns; these generalisations are expressed as a set of WordNet noun concepts. One of these approaches, namely the method proposed by (Abe & Li 1996), constitutes the starting point of my research. However, this approach is not immediately applicable for learning role relations, but requires modifications and extensions for that task. In particular, two aspects have to be taken into account. Firstly, it is crucial that the WordNet concepts acquired to represent selectional preferences of a verb are located at an appropriate level of generalisation (e.g. <food> as PATIENT of <eat>, rather than <cake> or <physical_object>). I develop a modification of the approach which substantially improves its performance in this respect. Secondly, as the existing methods generalise over syntactic complements, they acquire selectional preferences for syntactic rather than semantic arguments. To learn selectional preferences for semantic roles, the syntactic arguments provided by the parsed corpus have to be linked to their underlying roles so that the statistical learning method can be applied to generalise, for example, over all (semantic) Agents of the examined verb rather than over all its (syntactic) subjects. Therefore, I develop a method for linking syntactic to semantic arguments. A further aspect of the overall strategy I present is an appropriate method for mapping the verbs and nouns in the training data to the corresponding WordNet concepts, which is a prerequisite for applying the preference acquisition algorithm. To evaluate the role acquisition approach developed in this thesis, I extract a gold standard from the EuroWordNet database and propose detailed evaluation criteria. Overall, the evaluation results (accuracy rates of up to 84%) show that the approach works effectively.

Das Dokument erscheint in: