Parsing is a step for understanding a natural language to find out about the words and their grammatical relations in a sentence. Statistical parsers require a set of annotated data, called a treebank, to learn the grammar of a language and apply the learnt model on new, unseen data. This set of annotated data is not available for all languages, and its development is very time- consuming, tedious, and expensive. In this dissertation, we propose a method for treebanking from scratch using machine learning methods. We first propose a bootstrapping approach to initialize the data annotation process. We aim at reducing human intervention to annotate the data. After developing a small data set, we use this data to train a statistical parser. This small data set suffers from the sparseness of data at the lexical and syntactic construction levels. Therefore, a parser trained with this amount of data might have a low performance in a real application. To resolve the data sparsity problem at the lexical level, we propose an unsupervised word clustering approach to provide a more coarse-grained representation of the lexical items. To resolve the data sparsity problem at the syntactic construction level, we propose active learning which is a promising supervised method to seek informative samples in a data pool. The data that is annotated through an active learning approach helps a learner to obtain performance similar to that of a learner trained with the complete set of annotated data. Consequently, active learning is a great help to reduce the amount of required annotated data.
Parsing bezeichnet einen Schritt in der automatischen Analyse natürlicher Sprache, bei dem die grammatischen Relationen zwischen den Wörtern eines Satzes offengelegt wird. Um die Grammatik einer Sprache zu lernen und auf neue Daten anwenden zu können, werden statistische Parser auf syntaktisch annotierten Daten, sogenannten Baumbanken, trainiert. Baumbanken sind nur für wenige Sprachen verfügbar, denn die manuelle Erstellung von Baumbanken ist langwierig, mühsam und teuer. Diese Dissertation präsentiert eine Methode zur Erstellung von Baumbanken mit Hilfe maschinellen Lernens. Als erstes schlagen wir einen Bootstrapping-Ansatz vor, welcher den Anteil an menschlicher Intervention zu minimieren sucht. Dabei verwenden wir eine kleine Menge eigens dafür annotierter Daten, um einen statistischen Parser zu trainieren. Bedingt durch die geringe Größe des Datensatzes zeigt das so trainierte Modell Abdeckungsprobleme auf der lexikalischen und syntaktischen Annotationsebene und würde in einer realistischen Anwendung schlechte Qualität liefern. Um die lexikalische Abdeckung zu verbessern, schlagen wir deshalb einen unüberwachten Wort-Clustering-Ansatz vor, welcher Wörter im Lexikon zu größeren Klassen gruppiert. Um die syntaktische Abdeckung zu verbessern, verwenden wir Active Learning, eine überwachte Methode um informative Beispiele aus einem großen Pool unannotierter Daten auszuwählen. Die Verwendung von Active Learning bei der Datenannotation reduziert die Menge an Daten, die annotiert werden muß, bevor man dieselbe Performanz erreicht, die man unter Verwendung der Gesamtdatenmenge erreichen würde. Active Learning ist deshalb eine große Hilfe, wenn man die Menge an zu annotierenden Daten reduzieren will.