Sanskrit und Computer: Ein Programm zur Sprachanalyse von indischen Texten mit integriertem OCR-Modul

Hellwig, Oliver

Sanskrit und Computer

Metadata

dc.contributor.author

Hellwig, Oliver

dc.date.accessioned

2018-06-07T18:48:39Z

dc.date.available

2003-11-21T00:00:00.649Z

dc.date.issued

2003

dc.identifier.uri

https://refubium.fu-berlin.de/handle/fub188/5429

dc.identifier.uri

http://dx.doi.org/10.17169/refubium-9628

dc.description

Titelblatt Einführung Das OCR-Modul Die Sprachanalyse Ausblick Benutzerhandbuch Literatur

dc.description.abstract

Thema der Arbeit ist die digitale Verarbeitung von Sanskrit-Texten. Dazu wurden ein Programm zur Digitalisierung in Devanagari gedruckter Texte (OCR) und ein Programm zum lexikalischen und morphologischen Tagging digitalisierter Texte entworfen und in C++ implementiert. Die Digitalisierung wird mithilfe von Gruppen neuronaler Backpropagation-Netze durchgeführt, die auf Formbeschreibungen der Nagari-Zeichen trainiert werden. Zusätzlich zu fest installierten Klassifikatoren können trainierbare Klassifikatoren auf Basis des k-Nearest-Neighbours-Algorithmus aktiviert werden. Das OCR-Modul erreicht eine fontabhängige Erkennungsgenauigkeit von ca. 93-98%, wobei ein Grossteil der Fehler im Rahmen der Zeilensegmentierung verursacht wird. Die Möglichkeiten eines sprachbasierten Postprocessings der Daten werden diskutiert und seine Grenzen einer Nachbehandlung aufgrund sprachimmanenter Probleme (Sandhi, Homonymie) aufgezeigt. Im Rahmen des lexikalischen und morphologischen Taggings werden die Hauptprobleme ? Sandhi, Grösse des Wortschatzes und Kompositabildung im Sanskrit ? durch einen mehrstufigen rekursiven Auflösungsalgorithmus gelöst, der auf eine fest codierte Sammlung von sprachlichen Regeln und eine umfangreiche Datenbank mit lexikalischen und grammatikalischen Informationen zurückgreift. Aufbauend auf OCR und Tagging erlaubt die Programmkonstruktion die sukzessive Erstellung einer Datenbank getaggter Sanskrit-Texte, die zum ersten Mal eine effiziente lexikonbasierte Suche in diesen Texten möglich macht.

dc.description.abstract

The dissertation deals with the development and implementation of two programs for digitalizing (OCR) and tagging Sanskrit texts printed in Devanagari. Images of text are digitalized using neural networks which are trained with the backpropagation algorithm. Additionally knn-classificators based on the current typeface can be activated and trained to improve the result of the recognition process. Depending on the quality of the printed text and the typeset, recognition rates of 93-98% can be obtained, most of the errors resulting from wrong segmentation of the lines of text. Furthermore the possibility (and limitations) of a language based postprocessing of the text are discussed. The automatical analysis of Sanskrit sentences (tagging) is complicated by language immanent problems - e.g. Sandhi (euphonic rules), the size of the vocabulary used and the formation of composite words. To segment sequences of untagged text the program uses a recursive algorithm based on a number of morphological rules (mainly based on Panini), the lexical contents of a large database which had to be build for the program and statistical information from already tagged texts. The main target of the digitalization is the creation of a database of tagged Sanskrit texts which can be searched and analyzed effectively. In a final chapter some simple implementations of more advanced searching algorithms are discussed.

dc.language

ger

dc.rights.uri

http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen

dc.subject

Sanskrit digitalization ocr tagging

dc.subject.ddc

000 Informatik, Informationswissenschaft, allgemeine Werke::000 Informatik, Wissen, Systeme::004 Datenverarbeitung; Informatik

dc.title

Sanskrit und Computer

dc.type

Dissertation