Update: Tesseract 3

Die professionelle OCR-Software Tesseract wurde am 1. Oktober in Version 3 veröffentlich. Sehr wichtig und neu hinzugekommen ist die Layout-Analyse und das Abspeichern des korrekten Layouts im hOCR-Format.

Leider ist diese Funktion nicht dokumentiert. Aktiviert wird die hOCR-Ausgabe, indem im Verzeichnis tessdata/configs die Datei „hocr“ (ohne Endung .txt!) angelegt wird mit dem Inhalt

tessedit_create_hocr 1

Aufgerufen wird Tesseract dann mit dem Wort „hocr“ am Ende der Parameterliste, also

tesseract Bild.tiff Ausgabe -l Sprache hocr

Mittels hocr2pdf können PDFs mit Text-Overlay erzeugt werden, wie man sie beispielsweise aus der Google-Büchersuche kennt. Durch die Möglichkeit, den erkannten Text im hOCR-Format zu speichern ist Tesseract nunmehr ein vollständiges Texterkennungsprogramm mit Strukturanalyse.

Die Geschwindigkeit und Erkennungsgenauigkeit sind überdurchschnittlich.

Advertisements

Ein Kommentar (+deinen hinzufügen?)

  1. Harald
    Dez 07, 2010 @ 15:07:04

    Danke für den Hinweis. Ich experimentiere auch gerade mit Version 3.0 von Tesseract. Die Layouterkennung funktioniert jetzt. Tesseract 2 hat bei einem mehrspalitigen Layout einfach die Zeilen komplett eingelesen und somit falsche Sätze zusammengestellt. Bei Version 3 sieht das jetzt aber sehr gut aus.
    Wo findet man eigentlich eine Dokumentation mit allen Einstellungen und Startparametern?
    Viele Grüße, Harald

    Antwort

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: