Datenrettung mit PhotoRec

Wer am Computer selbst Daten produziert kennt das Problem: Im Explorer-Fenster aus Versehen auf die „Entfernen“-Taste gekommen, geistesabwesend „Enter“ gedrückt und schon ist die Datei verschwunden.

Rettung verspricht das Programm PhotoRec, das trotz seines Namens nicht nur Photos sondern sämtliche alltäglichen Dateitypen unter Windows wieder herstellen kann. PhotoRec wurde zwar laut Hersteller für die Rettung von gelöschten Photos auf Speicherkarten für Photoapparate entwickelt, lässt sich jedoch auch problemlos auf Festplatten anwenden.

Im Test konnte PhotoRec sämtliche Dateien in den üblichen Formaten wiederherstellen. Da es äußerst wichtig ist nach einem Datenverlust keine weiteren Aktivitäten auf dem Datenträger zuzulassen – jeder Schreibvorgang des Betriebssystems könnte Bereiche überschreiben in denen sich Daten der Datei befinden – sollte man keinesfalls Rettungsversuche auf eigene Faust an der laufenden Maschine in Angriff nehmen.

Stattdessen sollte PhotoRec an einer anderen Maschine auf einen möglichst großen USB-Stick (besser: möglichst große USB-Festplatte) kopiert und dieser USB-Stick an den Computer mit den zu rettenden Daten angeschlossen werden. Im Unterverzeichnis „win“ befindet sich die PhotoRec.exe, die sich nach Start durch Doppelklick als Kommandozeilenwerkzeug offenbart. Zunächst wird die Platte mit den zu rettenden Daten ausgewählt, anschließend die Partition. Daraufhin können die Dateitypen ausgewählt werden, nach denen PhotoRec Ausschau halten soll, gefolgt von der Frage nach dem Verzeichnis, in dem die wiederhergestellten Daten abgelegt werden sollen. Hier muß ein ausreichend großes Speichermedium verfügbar sein, was bei USB-Sticks schnell Probleme bereiten kann.

Nach Bestätigung des Verzeichnisses mit „Y“ beginnt PhotoRec mit seiner Arbeit. Das Programm arbeitet stabil und im lesenden Betrieb sehr schnell.

Fazit: PhotoRec eignet sich wohl am meisten für Anwender, die tatsächlich Photos von externen Speichermedien wie den Flash-Speichern aus Photoapparaten wiederherstellen wollen. Zwar arbeitet es genau so gut auf Festplatten und ist auch in der Lage mit dem mitgelieferten FixDisk gängige Systempartitionen von Computern zu reparieren, doch für das Wiederherstellen von verloren geglaubten Daten auf Festplatten gibt es einfach bessere Programme und sogar bootfähige Live-CD-Images. Diese haben den Vorteil, daß man direkt nach dem Datenverlust den Netzstecker am Rechner ziehen und nach einem Neustart und Boot von der Live-CD im Nur-Lese-Betrieb die Festplatte einbinden kann. Damit wird verhindert, daß das von der jeweiligen Festplatte geladene, laufende Betriebssystem Datenbereiche der gelöschten Datei unkontrolliert mit anderen Informationen überschreibt und eine Wiederherstellung unmöglich macht. PhotoRec eignet sich auch, um sich als Anwender im Selbsttest ein Bild über die Unzuverlässigkeit der Standard-Löschfunktion von Windows zu machen.

Texterkennung mit Tesseract (Windows)

Immer mehr Haushalte entscheiden sich beim Druckerkauf für Multifunktionsgeräte, die sowohl Drucken, Scannen, Kopieren und Faxen können.

Geräte von Markenfirmen mit WLAN  sind teilweise unter 100 Euro erhältlich.

Die Scanner werden häufig zum Digitalisieren von Dokumenten oder Skripten verwendet. Allerdings liegen die Daten zunächst als Bilddatei auf dem Computer vor, die nicht mit einem Textverarbeitungsprogramm genutzt werden kann. Für den Computer sind die Daten vom Scanner schließlich Bilddaten, ganz gleich ob sie von einem Dokument oder einem Photo stammen.

Auf dem Markt sind zahlreiche Programm erhältlich, die auf den Namen „OCR“ hören (Optical Character Recognition, Optische Zeichenerkennung). Am populärsten sind wohl der „FineReader“, „ReadIris“ und „OmniPage“

Völlig kostenlos kann das Programm „Tesseract“ diese Aufgabe übernehmen. Schreibmaschinenseiten und Computerdrucke verarbeitet Tesseract mit hoher Genauigkeit, lediglich Bilder und Seiten mit mehreren Spalten bereiten dem Programm Probleme und müssen nach dem Scan und vor der Verarbeitung mit Tesseract manuell aus den für Tesseract bestimmten Bilddateien entfernt werden.

Außerdem müssen die Scans Tesseract als unkomprimierte TIFF-Dateien vorliegen. Der in Windows integrierte Scan-Assistent kann Daten standardmäßig in diesem gängigen Format speichern.

Optimal sind Auflösungen ab 300dpi – kein Problem für Scanner, die nicht älter als 15 Jahre sind. Sogar mit einer Digitalkamera photographierte Seite kann Tesseract trotz der Bildkrümmung zufriedenstellend in Text umwandeln.

Wie funktioniert das ganze?

Zuerst muß Tesseract hier heruntergeladen werden. Die Datei wird entpackt, zum Beispiel mit WinRAR oder 7Zip. Anschließend werden Sprachdateien für die jeweilige Sprache benötigt. Diese können hier heruntergeladen werden. Wer nicht lange suchen will findet die deutsche Sprachdatei hier. Die Datei ist wichtig, damit Tesseract deutsche Sonderzeichen wie das „ß“ und die Umlaute erkennt.

Das Verzeichnis in der heruntergeladenen Sprachdatei wird in das Verzeichnis von Tesseract entpackt. Nun befindet sich dort lediglich die Datei tesseract.exe, die bei einem Doppelklick zunächst nichts macht.

Tesseract wird nämlich von der Kommandozeile (auf Windows-Sprache: Eingabeaufforderung) bedient. Der gängigste Befehl zum Scannen der Datei Scan.tiff und der Ausgabe in die Textdatei Scan.txt in deutscher Sprache lautet:

tesseract.exe Scan.tiff Scan -l deu

Tesseract hängt unter Windows automatisch die Dateiendung „.txt“ an die Ausgabedatei an.

Um eine Menge gescannter Dokumente auf ein Mal umzuwandeln, werden alle TIFF-Bilder in das Tesseract-Verzeichnis kopiert und anschließend das Programm wie folgt aus der Eingabeaufforderung aufgerufen:

for %i in (*.tif) do tesseract.exe %i %i.txt -l deu

Liegen die Bilder in einem anderen Format (z.B. JPEG) vor und sollen in TIFF umgewandelt werden, so geht dies ebenfalls auf einen Rutsch mit den Tools aus der ImageMagick-Sammlung:

mogrify -brightness-contrast 10,80 -colorspace Gray -depth 8 +compress -rotate 90 -format tif *.jpg

Die Kommandos „-rotate 90“ (dreht das Bild um 90 Grad) und „-brightness-contrast 10,80“ können im Normalfall weggelassen werden. Mit „-brightness-contrast 10,80“ wird der Kontrast des Bildes verstärkt, was die Texterkennung bei einigen Aufnahmen für Tesseract leichter machen kann.

Zum Schluß werden ebenfalls in der Kommandozeile per

copy /b *.txt Gesamttext.txt

alle von Tesseract erzeugten Textdateien zur Datei Gesamttext zusammengefügt, die anschließend in Microsoft Word oder OpenOffice eingelesen und dort weiterverarbeitet werden kann. Dabei muß beachtet werden, daß der „copy“-Befehl nicht weiß, welche Textdateien neu sind. Daher sollte das jeweilige Verzeichnis vor der Benutzung von TIFF- und Text-Dateien vorhergegangener Scans gesäubert werden.

Fazit: Tesseract ist ein typisches Kommandozeilenprogramm mit der UNIX-Philosophie: „Erledige nur eine Aufgabe, und erledige sie dafür gut“. Tesseract erscheint auf den ersten Blick sehr primitiv und unflexibel, kann bei richtiger Benutzung aber schneller und besser als so manches teure GUI-Programm sein. Große Vorteile sind meines Erachtens die leichte Installation (lediglich Entpacken ist nötig), die hohe Geschwindigkeit des Programms und die praktisch unschlagbare Erkennungsgenauigkeit. Sämtliche Erkennungsfehler waren in meinem umfangreichen Test auf Druckfehler oder Bildfehler zurückzuführen. Auch mit per Digicam abphotographiertem Text war die Erkennungsgenauigkeit durchweg überzeugend. Ein weiterer Vorteil liegt in der leichten Einbindbarkeit von Tesseract in weitere Befehle. Während man bei einigen kostenlosen oder günstigen Texterkennungsprogrammen mühsam Seite für Seite öffnen und auf „Erkennung starten“ klicken muß, verarbeitet Tesseract mit einem einzigen Batch-Befehl beliebig viele Dateien ohne weitere Zuwendung vom Benutzer zu erfordern. Nachteile sind die Unfähigkeit von Tesseract, komplexe Textformatierungen zu erkennen mit mehreren Spalten pro Seite, wie sie in Zeitungen üblich sind. Solche Scans müssen manuell nachbearbeitet werden. Außerdem ist es für Benutzer ohne Erfahrung mit der Kommandozeile in Windows zu Anfang sicherlich etwas umständlicher als GUI-Programme, die zwar mehr Klickerei erfordern, dafür jedoch ohne Vorkenntnisse bedienbar sind.