dc.contributor.author
Siniakov, Peter
dc.date.accessioned
2018-06-08T00:23:18Z
dc.date.available
2008-04-19T00:00:00.649Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/11871
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-16069
dc.description
Title, Abstract, Acknowledgements, Contents
I Information Extraction:Problems and Perspectives
11
1
Introduction 12
2
Related Work - Adaptive Approaches to IE
18
3
Approaching the Problem
30
II Inductive Learning of Extraction Rules
36
4
Rule-Based Approach to Information Extraction 37
5 Preprocessing of Text Corpus 46
6 Pattern Unification by Querying XML: A Pattern Based XML
Query Language 60
7 Induction of Extraction Rules 75
8 Rule Generalization and Correction 89
9
Learning Algorithm and Application
102
III Evaluation 115
10 Introduction to the Empirical Investigation 117
11 Extraction Results and Comparison with Other IE Approaches and Human
Performance 127
12 What Influences Extraction Quality? 145
13 Conclusion 160
Bibliography 169
Appendix 176
A Definition of the Pattern Language 176
B
Pattern Matching Algorithm for Selected Patterns
178
C
Algebraic Transformations for Recursive Backtracking Patterns 180
D
Anhang gemäß Promotionsordnung 181
dc.description.abstract
Internet, mass media, scientific literature are the source of huge,
continuously growing amount of information that is comprised by natural
language texts and stored in digital form. This information can hardly be
immediately accessed and processed by computers while human access is often
connected with a time-consuming search. Extracting and storing it in a formal
representation (e.g. in form of relations in databases) allows efficient
querying and easy administration of the extracted data. Moreover, information
stored and queried in a canonical way can be processed and interpreted by
computers without human interaction; it can serve for establishing ontologies,
creation of knowledge bases and data analysis. The area of IE comprises
techniques, algorithms and methods performing two important tasks: finding
(identifying) the desired, relevant data in natural language texts and storing
it in a structured representation suitable for automatic processing.
First IE systems relied on domain-specific extraction rules written by a
domain expert requiring large human effort and lacking portability to other
domains. To compensate the insufficiencies of the classical rule-based
approach human effort should be adequately replaced by a learning component.
The main goal of my dissertation has been the development of an adaptive,
rule-based algorithm for IE that autonomously learns the extraction rules. The
algorithm is based on induction learning deriving general extraction rules
from a set of sample extractions annotated by a human in a training corpus.
Requiring only an annotated training corpus and no additional resources the
approach is portable to different application domains and even languages (in
the dissertation its effectiveness for English and German text corpora has
been examined).
The extraction rules incorporate linguistic patterns that capture typical
expression forms of extracted information in a given text corpus. We introduce
a higher-order formal pattern specification language that supports regular
expressions, permutation, negation and hierarchical XML structures
significantly extending common pattern models. Linguistic patterns are not
restricted to a fix context window, but encode whole sentences as primary
semantic units of natural language. The proposed pattern language is powerful
and expressive enough to capture non-trivial kinds of phrases and sentences
containing relevant information. The linguistic patterns are matched with
linguistically preprocessed texts that have a valid XML markup. Regarding
linguistic patterns as XML queries we reduce the problem of IE to XML query
evaluation. Having developed formal semantics and an efficient query
evaluation algorithm for the pattern language we create a new XML query
language, which is especially suitable for querying XML annotated texts.
As a part of semantic text preprocessing we propose a new method for
determination of synonymy. We construct a lexical graph connecting lexical
items in a way corresponding to the sentence structure building an implicit
context representation. We demonstrate that the synonymy metric based on the
length of paths between two lexical items, number and specificity of shared
neighbors achieves satisfactory results evaluating it on a test corpus of 200
German synonyms. Identified synonyms are used for abstraction of lexical items
during the rule induction.
Beginning with the rules generated from training instances, which were
extracted by the human, rules are generalized to account for different kinds
of information expression in the texts. The generalization of rules is
formally specified and involves beside rule merging abstraction of single
rules and substitution of extracted parts in context of different rules. For
establishing a similarity measure for extraction rules and rule merging an
algorithm for determination of optimal alignment of two sequences with minimum
runtime (which is an extension of the LCS problem) has been designed and its
correctness proved. To achieve a gradual generalization of extraction rules
the rule learning algorithm includes validation of induced rules and rule
correction.
We demonstrate the effectiveness of our approach comparing its performance
with other state of the art approaches achieving comparable or even best
results depending on the kind of texts and assess its potential comparing its
results with the human performance. Based on varying performance of different
approaches on different corpora conclusions about the efficiency of
statistical and rule-based approaches for different kinds of text are made.
The quantitative investigation is supplemented by the analysis what factors
influence the extraction quality, what are the sources of errors etc. Finally,
we draw a conclusion in what conditions application of IE in general is
expedient, what kinds of text can be managed and characterize the range of
environments where the presented approach can be usefully utilized.
de
dc.description.abstract
Internet, Presse, wissenschaftliche Veröffentlichungen beherbergen gigantische
Informationsmengen, die als natürlichsprachliche Texte vorliegen. Die
Informationen in natürlichsprachlichen Quellen sind für Computer jedoch kaum
zugänglich, und auch für den Menschen ist der Zugang oft mit langer Suche
verbunden. Das Ziel dieser Dissertation ist die Entwicklung eines Verfahrens,
mit dessen Hilfe im Voraus spezifizierte Informationen im Text automatisch
gesucht und in eine formale, abfragbare Struktur überführt werden. Durch
Extraktion und Speicherung der Informationen in einer strukturierten Form
(z.B. als Relationen in der Datenbank) werden ein effizienter
Anfragemechanismus und bessere Administration der extrahierten Inhalte
ermöglicht. Strukturierte Informationen können ohne menschliche Interaktion
vom Computer weiterverarbeitet werden, indem sie z.B. zur Erstellung von
Ontologien, Wissensbasen und Datenanalyse dienen.
Die ersten IE Systeme basierten auf handgeschriebenen, auf einen
Anwendungsbereich zugeschnittenen Extraktionsregeln, die einen hohen manuellen
Aufwand erforderten und auf andere Anwendungsbereiche nicht übertragbar waren.
Der in der Dissertation vorgestellte Ansatz kompensiert diese
Unzulänglichkeiten durch den Einsatz des maschinellen Lernens anstelle eines
menschlichen Experten. Extraktionsregeln werden automatisch aus einer Menge
von Beispielextraktionen, die von einem Menschen in einem Trainingskorpus
annotiert sind, durch induktives Lernen abgeleitet. Da außer dem
Trainingkorpus keine Ressourcen erforderlich sind, kann das Verfahren in
unterschiedlichen Anwendungsbereichen und sogar Sprachen angewendet werden.
Extraktionsregeln beinhalten Sprachmuster, die typische Ausdrucksformen der
extrahierten Information in einem Textcorpus widerspiegeln. Wir erweitern
verbreitete Modelle der natürlichen Sprache, indem wir eine reichhaltige
Musterspezifikationssprache definieren, die reguläre Ausdrücke, Permutation,
Negation und hierarchische XML Strukturen unterstützt. Sprachliche Muster sind
nicht auf ein festes Kontextintervall beschränkt, sie bilden komplette Sätze
als primäre semantische Einheiten der natürlichen Sprache ab. Die
Ausdrucksfähigkeit der entwickelten Mustersprache erlaubt, nicht triviale
Phrasen und Sätze mit relevanter Information abzubilden.
Sprachliche Muster werden auf linguistisch vorverarbeitete Texte angepasst,
die mit XML annotiert sind, um gewünschte Informationen zu finden. Indem wir
die sprachlichen Muster der Extraktionsregeln als XML Anfragen betrachten,
wird das Problem der IE auf die Auswertung der XML Anfragen zurückgeführt. Wir
haben eine formale Semantik und einen effizienten Algorithmus zur
Anfrageauswertung für die Musterspezifikationssprache entwickelt. Damit wurde
eine neue XML Anfragesprache geschaffen, die für Anfragen auf den mit XML
annotierten Texten besonders geeignet ist.
Im Rahmen der semantischen Vorverarbeitung der Texte schlagen wir eine neue
Methode für die Bestimmung der Synonyme vor. Wir bauen einen lexikalischen
Graphen durch Verbindung der lexikalischen Terme entsprechend der
syntaktischen Struktur der Sätze auf und erhalten so eine implizite
Kontextdarstellung. Wir zeigen, dass die Synonymiemetrik, die die Längen der
Pfade zwischen zwei Termen, die Anzahl und die Besonderheit ihrer gemeinsamen
Nachbarn berücksichtigt, zufrieden stellende Ergebnisse auf einem Testcorpus
mit 200 Synonymmengen erreicht. Identifizierte Synonyme dienen zur Abstraktion
der lexikalischen Elemente während der Induktion von Extraktionsregeln.
Die am Anfang aus den vom Menschen annotierten Beispielextraktionen
generierten Extraktionsregeln werden verallgemeinert, um mögliche ähnliche
Ausdrucksmöglichkeiten der gesuchten Information im Text zu erfassen. Die
Verallgemeinerung ist formal spezifiziert und umfasst neben der
Regelverschmelzung Abstraktion der einzelnen Regeln und Substitution der
extrahierten Abschnitte im Kontext der unterschiedlichen Regeln. Für die
Definition eines Ähnlichkeitsabstands zwischen zwei Regeln und für die
Regelverschmelzung wurden ein Algorithmus entworfen, der optimales Alignment
zwischen zwei Sequenzen in minimaler Laufzeit findet (was eine Erweiterung des
bekannten LCS Problems darstellt), und seine Korrektheit bewiesen. Um eine
allmähliche Verallgemeinerung der Regeln zu erreichen, flossen Validierung und
Korrektur der Regeln in den Lernalgorithmus ein.
Die Leistungsfähigkeit unseres Ansatzes wird mit Hilfe eines Vergleichs mit
den Ergebnissen aktueller IE-Systeme demonstriert, bei dem GROPUS
vergleichbare oder sogar beste Resultate in Abhängigkeit von der Art der Texte
erreicht. Das Potential des Systems wird in einer neuartigen Untersuchung
durch den Vergleich mit menschlichen Ergebnissen ermittelt. Aufgrund des
unterschiedlichen Verhaltens von untersuchten Ansätzen auf unterschiedlichen
Korpora werden Schlussfolgerungen über die Tauglichkeit der statistischen und
regel-basierten Ansätze für unterschiedliche Textarten gemacht. Quantitative
Untersuchung wird ergänzt durch die Analyse, welche Faktoren die
Extraktionsqualität entscheidend beeinflussen, was die Fehlerquellen sind etc.
Abschließend gehen wir auf die Fragen ein, unter welchen Bedingungen die
Anwendung von IE-Techniken heute nützlich ist, welche Arten von Text
verarbeitet werden können, und charakterisieren die Umgebungen, in denen der
vorgestellte Einsatz sinnvoll eingesetzt werden kann.
de
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Information extraction
dc.subject
synonymy recognition
dc.subject
XML query language
dc.subject
rule induction
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik
dc.title
GROPUS an Adaptive Rule-based Algorithm for Information Extraction
dc.contributor.firstReferee
Prof. Dr.-Ing. Heinz F. Schweppe
dc.contributor.furtherReferee
Prof. Dr. Ulf Leser
dc.date.accepted
2008-04-11
dc.date.embargoEnd
2008-04-21
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000003454-4
dc.title.translated
GROPUS - ein adaptiver regelbasierter Ansatz zur Informationsextraktion
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000003454
refubium.mycore.transfer
http://www.diss.fu-berlin.de/2008/265/
refubium.mycore.derivateId
FUDISS_derivate_000000003454
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access