In der vorliegenden Arbeit wird eine Methode zur Lokalisierung von Text in realen Aufnahmen von Textdokumenten mit beliebigem Hintergrund vorgestellt. Dieses bottom-up Verfahren, das auf lokaler Hauptkomponentenanalyse basiert, identifiziert die Layoutstruktur eines Dokumentes. Eine neue Methode zur Segmentierung von Text wird vorgeschlagen, die sich im Vergleich zu Standardverfahren als robuster gegenüber Änderungen der Lichtverhältnisse erweist. So lassen sich handgeschriebene Texte an Kreidetafel und Whiteboard ebenso gut segmentieren, wie gedruckte Dokumentaufnahmen. Eine Bildaufnahme genügt nicht immer, um alle wichtigen Bildbereiche zu fokussieren und ausreichend auszuleuchten. So wird eine neue Methode vorgeschlagen, die basierend auf den Kantenintensitäten verschiedene Aufnahmen zusammenfasst. Die Erkennungsraten sind dabei besser als bei den untersuchten aktuellen Methoden. Da die Layoutstuktur oft verzerrte Textblöcke identifiziert, die nicht in Blockform vorliegen, wird ein Entzerrungsalgorithmus vorgestellt, der sich an den lokalen Buchstabenausrichtungen orientiert und dieses Problem löst. Nachdem die Textblöcke begradigt sind, können diese adaptiv segmentiert werden. Für die Ermittlung der Dokumentrichtung lassen sich die SITT-Merkmale einsetzen, die Punktkomponenten in Buchstaben identifizieren.
This thesis presents a novel method for detecting text in outdoor scenes, having different background, instead of perfect scanned documents. This bottom-up approach based on local principal component analysis identifies the layout structure of a document. A new method for segmenting text is proposed that is more robust against changes in the lighting conditions than standard approaches. Text written on white or black boards can be segmented as good as text in printed documents. To focus and illuminate all areas of an image that contains necessary information taking only one image is not always sufficient. Therefore a new algorithm is proposed for fusioning multi-exposure images of text documents based on edge intensities. The recognition rate of an OCR- engine is used as a benchmark to quantify the results. Experiments show that the current method delivers significant better results than standard methods. After layout detection warped text blocks are deskewed with respect to the local character orientation as the text blocks are not always justified. Each line of the text is segmented adaptively. To solve the vice-versa problem of the document orientation one can apply SITT features that identify dot like components in texts.