Vergleichstest: 3 OCR Engines unter Linux

 Courier OCR Tests

Statistik für Courier

Hier sehen wir sehr schön, dass tesseract bis herunter zu 150 dpi noch relativ gut in der Texterkennung ist während die anderen beiden Engines hier eher schlecht abschneiden.

Arial OCR Tests

Ergebnisse für Arial

Bei Arial  sind ocrad und tesseract die klaren Favoriten während sich gocr weiterhin schwer tut. tesseract ist auch wieder der klare Favorit wenn die Scanauflösung nicht so hoch ist.

Times OCR Tests

Ergebnisse für Times

Bei Times ist auch wieder tesseract der klare Gewinner. ocrad erzeugt bei 300 dpi nur halb soviele Fehler wie gocr, aber 31 Fehler für so einen Text sind auch relativ viel.

And the winner is

Nach diesen drei Graphiken ist klar, dass das Siegespodest hier tesseract gehört. Die geringste Fehlerrate in allen drei Disziplinen spricht für sich.

Allerdings sollte man berücksichtigen, dass hier saubere Originale gescannt wurden. Bei dem Fax das meine Frau konvertiert haben wollte gab es sehr viele „Schmutzpixel“ die wohl durch ein verdrecktes senderseitiges Faxgerät „zugefügt“ wurden. Und mit so einer Vorlage hat dann jede der drei Engines ihre liebe Not etwas Vernünftiges zu erkennen.

[ratings]

2 Gedanken zu „Vergleichstest: 3 OCR Engines unter Linux

  1. Pingback: Ein Link, zwei, drei, vier… | König von Haunstetten

  2. Dankeschön, für Ihre Mühen!
    bin gerade dabei alles auf Linux(Ubuntu) zu portieren, später auf OpenSuse,
    OCR ist und war mein Steckenpferd 🙂 Vielen Dank nochmal..

Kommentare sind geschlossen.