dc.contributor.author
Ghayoomi, Masood
dc.date.accessioned
2018-06-08T02:02:19Z
dc.date.available
2014-11-25T10:58:19.282Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/13963
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-18160
dc.description.abstract
Parsing is a step for understanding a natural language to find out about the
words and their grammatical relations in a sentence. Statistical parsers
require a set of annotated data, called a treebank, to learn the grammar of a
language and apply the learnt model on new, unseen data. This set of annotated
data is not available for all languages, and its development is very time-
consuming, tedious, and expensive. In this dissertation, we propose a method
for treebanking from scratch using machine learning methods. We first propose
a bootstrapping approach to initialize the data annotation process. We aim at
reducing human intervention to annotate the data. After developing a small
data set, we use this data to train a statistical parser. This small data set
suffers from the sparseness of data at the lexical and syntactic construction
levels. Therefore, a parser trained with this amount of data might have a low
performance in a real application. To resolve the data sparsity problem at the
lexical level, we propose an unsupervised word clustering approach to provide
a more coarse-grained representation of the lexical items. To resolve the data
sparsity problem at the syntactic construction level, we propose active
learning which is a promising supervised method to seek informative samples in
a data pool. The data that is annotated through an active learning approach
helps a learner to obtain performance similar to that of a learner trained
with the complete set of annotated data. Consequently, active learning is a
great help to reduce the amount of required annotated data.
de
dc.description.abstract
Parsing bezeichnet einen Schritt in der automatischen Analyse natürlicher
Sprache, bei dem die grammatischen Relationen zwischen den Wörtern eines
Satzes offengelegt wird. Um die Grammatik einer Sprache zu lernen und auf neue
Daten anwenden zu können, werden statistische Parser auf syntaktisch
annotierten Daten, sogenannten Baumbanken, trainiert. Baumbanken sind nur für
wenige Sprachen verfügbar, denn die manuelle Erstellung von Baumbanken ist
langwierig, mühsam und teuer. Diese Dissertation präsentiert eine Methode zur
Erstellung von Baumbanken mit Hilfe maschinellen Lernens. Als erstes schlagen
wir einen Bootstrapping-Ansatz vor, welcher den Anteil an menschlicher
Intervention zu minimieren sucht. Dabei verwenden wir eine kleine Menge eigens
dafür annotierter Daten, um einen statistischen Parser zu trainieren. Bedingt
durch die geringe Größe des Datensatzes zeigt das so trainierte Modell
Abdeckungsprobleme auf der lexikalischen und syntaktischen Annotationsebene
und würde in einer realistischen Anwendung schlechte Qualität liefern. Um die
lexikalische Abdeckung zu verbessern, schlagen wir deshalb einen unüberwachten
Wort-Clustering-Ansatz vor, welcher Wörter im Lexikon zu größeren Klassen
gruppiert. Um die syntaktische Abdeckung zu verbessern, verwenden wir Active
Learning, eine überwachte Methode um informative Beispiele aus einem großen
Pool unannotierter Daten auszuwählen. Die Verwendung von Active Learning bei
der Datenannotation reduziert die Menge an Daten, die annotiert werden muß,
bevor man dieselbe Performanz erreicht, die man unter Verwendung der
Gesamtdatenmenge erreichen würde. Active Learning ist deshalb eine große
Hilfe, wenn man die Menge an zu annotierenden Daten reduzieren will.
en
dc.format.extent
[16], 243 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
the Persian language
dc.subject
treebanking: HPSG
dc.subject
machine learning
dc.subject
data annotation
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke
dc.subject.ddc
400 Sprache
dc.title
From HPSG-based Persian Treebanking to Parsing
dc.contributor.contact
masood.ghayoomi@fu-berlin.de
dc.contributor.firstReferee
Prof. Dr. Raul Rojas
dc.contributor.furtherReferee
Prof. Dr. Stefan Müller
dc.contributor.furtherReferee
Prof. Dr.Kiril Ivanov Simov
dc.date.accepted
2014-06-27
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000097295-6
dc.title.subtitle
Machine Learning for Data Annotation
dc.title.translated
Von HPSG-basiertem Treebanking zu Parsing
en
dc.title.translatedsubtitle
Maschinelles Lernen für die Annotation von Persischen Daten
en
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000097295
refubium.mycore.derivateId
FUDISS_derivate_000000015686
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access