Courier OCR Tests
Hier sehen wir sehr schön, dass tesseract bis herunter zu 150 dpi noch relativ gut in der Texterkennung ist während die anderen beiden Engines hier eher schlecht abschneiden.
Arial OCR Tests
Bei Arial  sind ocrad und tesseract die klaren Favoriten während sich gocr weiterhin schwer tut. tesseract ist auch wieder der klare Favorit wenn die Scanauflösung nicht so hoch ist.
Times OCR Tests
Bei Times ist auch wieder tesseract der klare Gewinner. ocrad erzeugt bei 300 dpi nur halb soviele Fehler wie gocr, aber 31 Fehler für so einen Text sind auch relativ viel.
And the winner is
Nach diesen drei Graphiken ist klar, dass das Siegespodest hier tesseract gehört. Die geringste Fehlerrate in allen drei Disziplinen spricht für sich.
Allerdings sollte man berücksichtigen, dass hier saubere Originale gescannt wurden. Bei dem Fax das meine Frau konvertiert haben wollte gab es sehr viele „Schmutzpixel“ die wohl durch ein verdrecktes senderseitiges Faxgerät „zugefügt“ wurden. Und mit so einer Vorlage hat dann jede der drei Engines ihre liebe Not etwas Vernünftiges zu erkennen.
[ratings]
Pingback: Ein Link, zwei, drei, vier… | König von Haunstetten
Dankeschön, für Ihre Mühen!
bin gerade dabei alles auf Linux(Ubuntu) zu portieren, später auf OpenSuse,
OCR ist und war mein Steckenpferd 🙂 Vielen Dank nochmal..