Cristina hatte am Wochenende wieder ihren VHS-Kurs in München. Als Hausaufgabe kamen dann einige Blätter mit, die sie gerne eingescannt haben will und natürlich mit OCR in ein passendes Format umgewandelt haben will.
Da mein Rechner an dem der Scanner hängt immer noch mit Sarge läuft und ich aktuell auch keine Zeit habe, ihn umzustellen habe ich mal schnell einen Ausweichweg beschritten. Als erstes wurde der Scanner mit SANE ins Netzwerk integriert. Dann ging es auf Nathan, den Rechner von Anna der ja schon Etch hat.
Dort wurde dann via Kooka eingescannt, erst mal ein vierseitiger Fragebogen sozusagen als „proof-of-concept“. Dann kam der Test der diversen OCR-Engines.
Kooka bedient out of the box Ocrad, aber hier ist die Erkennungsrate eher mäßig. Nett ist, daß man beim Texterkennen auch gleich eine Rechtschreibkorrektur machen kann, das vereinfacht die Sache wieder.
Da Etch auch die tesseract engine anbietet habe ich die mal installiert. Erster Wermutstropfen: Tesseract kann nur Tiff-Files verarbeiten, also erst mal alle JPEGs in TIFF umgewandelt. Das dauerte auf Nathan doch eine Weile, denn die CPU dort ist halt nur ein Duron 750.
Dann der Test mit tesseract. Ging problemlos und flott, sogar die handschriftlichen „X“ im Fragebogen wurden als „X“ erkannt. Probleme hat tesseract beim „H“, das endet in einem „I-I“ und bei Umlauten. Wenn man aber die so erzeugten Textfiles wieder in OpenOffice aufmacht, dann hilft einem da der Spellchecker gleich, die Probleme zu erkennen und zu beseitigen.
Jetzt muß ich nur noch Cristina beibringen, wie man das Zeugs auf ihrem neuen Rechner bedient, dann spare ich mir die Arbeit mit dem Scannen.