Update: Tesseract 3

Die professionelle OCR-Software Tesseract wurde am 1. Oktober in Version 3 veröffentlich. Sehr wichtig und neu hinzugekommen ist die Layout-Analyse und das Abspeichern des korrekten Layouts im hOCR-Format.

Leider ist diese Funktion nicht dokumentiert. Aktiviert wird die hOCR-Ausgabe, indem im Verzeichnis tessdata/configs die Datei „hocr“ (ohne Endung .txt!) angelegt wird mit dem Inhalt

tessedit_create_hocr 1

Aufgerufen wird Tesseract dann mit dem Wort „hocr“ am Ende der Parameterliste, also

tesseract Bild.tiff Ausgabe -l Sprache hocr

Mittels hocr2pdf können PDFs mit Text-Overlay erzeugt werden, wie man sie beispielsweise aus der Google-Büchersuche kennt. Durch die Möglichkeit, den erkannten Text im hOCR-Format zu speichern ist Tesseract nunmehr ein vollständiges Texterkennungsprogramm mit Strukturanalyse.

Die Geschwindigkeit und Erkennungsgenauigkeit sind überdurchschnittlich.

%d Bloggern gefällt das: