dc.contributor.author
Hellwig, Oliver
dc.date.accessioned
2018-06-07T18:48:39Z
dc.date.available
2003-11-21T00:00:00.649Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/5429
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-9628
dc.description
Titelblatt
Einführung
Das OCR-Modul
Die Sprachanalyse
Ausblick
Benutzerhandbuch
Literatur
dc.description.abstract
Thema der Arbeit ist die digitale Verarbeitung von Sanskrit-Texten. Dazu
wurden ein Programm zur Digitalisierung in Devanagari gedruckter Texte (OCR)
und ein Programm zum lexikalischen und morphologischen Tagging digitalisierter
Texte entworfen und in C++ implementiert. Die Digitalisierung wird mithilfe
von Gruppen neuronaler Backpropagation-Netze durchgeführt, die auf
Formbeschreibungen der Nagari-Zeichen trainiert werden. Zusätzlich zu fest
installierten Klassifikatoren können trainierbare Klassifikatoren auf Basis
des k-Nearest-Neighbours-Algorithmus aktiviert werden. Das OCR-Modul erreicht
eine fontabhängige Erkennungsgenauigkeit von ca. 93-98%, wobei ein Grossteil
der Fehler im Rahmen der Zeilensegmentierung verursacht wird. Die
Möglichkeiten eines sprachbasierten Postprocessings der Daten werden
diskutiert und seine Grenzen einer Nachbehandlung aufgrund sprachimmanenter
Probleme (Sandhi, Homonymie) aufgezeigt. Im Rahmen des lexikalischen und
morphologischen Taggings werden die Hauptprobleme ? Sandhi, Grösse des
Wortschatzes und Kompositabildung im Sanskrit ? durch einen mehrstufigen
rekursiven Auflösungsalgorithmus gelöst, der auf eine fest codierte Sammlung
von sprachlichen Regeln und eine umfangreiche Datenbank mit lexikalischen und
grammatikalischen Informationen zurückgreift. Aufbauend auf OCR und Tagging
erlaubt die Programmkonstruktion die sukzessive Erstellung einer Datenbank
getaggter Sanskrit-Texte, die zum ersten Mal eine effiziente lexikonbasierte
Suche in diesen Texten möglich macht.
de
dc.description.abstract
The dissertation deals with the development and implementation of two programs
for digitalizing (OCR) and tagging Sanskrit texts printed in Devanagari.
Images of text are digitalized using neural networks which are trained with
the backpropagation algorithm. Additionally knn-classificators based on the
current typeface can be activated and trained to improve the result of the
recognition process. Depending on the quality of the printed text and the
typeset, recognition rates of 93-98% can be obtained, most of the errors
resulting from wrong segmentation of the lines of text. Furthermore the
possibility (and limitations) of a language based postprocessing of the text
are discussed. The automatical analysis of Sanskrit sentences (tagging) is
complicated by language immanent problems - e.g. Sandhi (euphonic rules), the
size of the vocabulary used and the formation of composite words. To segment
sequences of untagged text the program uses a recursive algorithm based on a
number of morphological rules (mainly based on Panini), the lexical contents
of a large database which had to be build for the program and statistical
information from already tagged texts. The main target of the digitalization
is the creation of a database of tagged Sanskrit texts which can be searched
and analyzed effectively. In a final chapter some simple implementations of
more advanced searching algorithms are discussed.
en
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
Sanskrit digitalization ocr tagging
dc.subject.ddc
000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik
dc.title
Sanskrit und Computer
dc.contributor.firstReferee
Univ. Prof. Dr. Harry Falk
dc.contributor.furtherReferee
Dr. Habil. Gerhard Ehlers
dc.contributor.furtherReferee
Univ. Prof. Dr. W. Slaje (Halle)
dc.date.accepted
2002-11-16
dc.date.embargoEnd
2003-11-26
dc.identifier.urn
urn:nbn:de:kobv:188-2003002785
dc.title.subtitle
Ein Programm zur Sprachanalyse von indischen Texten mit integriertem OCR-Modul
dc.title.translated
Sanskrit and computer
en
refubium.affiliation
Geschichts- und Kulturwissenschaften
de
refubium.mycore.fudocsId
FUDISS_thesis_000000001117
refubium.mycore.transfer
http://www.diss.fu-berlin.de/2003/278/
refubium.mycore.derivateId
FUDISS_derivate_000000001117
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access