Vergleichstest: 3 OCR Engines unter Linux

Der Test-Setup

Um die Qualität der OCR Engines zu testen habe ich erst mal nach einem einfachen Standardtext gesucht der als Testobjekt herhalten muss. Spontan fiele mir hier der sogenannte „Dr. Grauert-Brief“ ein mit dem man Druckerleistungen benchmarken kann, aber dieser Brief ist laut Wikipedia lizensierungspflichtig und kostet richtig viel Geld. Glücklicherweise bietet die c’t-Redaktion einen ähnlichen „Dr. Grünert-Brief“ an, den man ohne Kosten nutzen kann.

Ich habe mir also mal den „Dr. Grünert-Brief“ runtergeladen und in drei Varianten ausgedruckt, nämlich in den Schriftarten „Courier“, „Times“ und „Arial“, einfach um festzustellen, ob die Schriftart später Probleme beim Erkennen macht.

Diese Ausdrucke wurden mit dem Laserdrucker bei 600 dpi erzeugt und die drei Blätter wurden nacheinander mit meinem Canon-Scanner (LIDE20) in unterschiedlichen Auflösungen zwischen 80 dpi und 600 dpi eingescannt. Höhere Scanauflösungen als 600 dpi wären relativ sinnfrei wenn das zu scannende Original selbst nur in 600 dpi ausgedruckt ist. 80 dpi als Einstiegsauflösung habe ich gewählt weil ich mich noch gut an die Nadeldrucker der 80er-Jahre des letzten Jahrhunderts erinnern kann die gerade mal 72dpi Druckauflösung hatten.

Abgespeichert wurden die Scans im TIFF-Format (wie tesseract das will) und mit convert in PNM für gocr und ocrad konvertiert. Dann wurden OCR Skripte auf die Dateien losgelassen die alle Auflösungen in Textdateien umsetzten. Ein maschineller Vergleich der so erzeugten Textdateiien schied leider aus, also habe ich den „Dr. Grünert-Brief“ eben jedesmal gelesen und die OCR-Erkennungsfehler gezählt. Wenn die Fehleranzahl zu hoch schien, das Dokument als nicht mal mehr annäherungsweise erkennbar war, dann habe ich für meine Statistik 99 Fehler eingetragen.

Nun zu den Auswertungen für die verschiedenen Schriftarten. Die gezählten Fehler wurden tabellarisch erfasst (Libreoffice-Calc) und dann als csv exportiert. Die Graphiken habe ich dann mit R (Statistikpaket) erzeugt weil die besser aussehen als das was herkömmliche Office-Pakete machen können.

2 Gedanken zu „Vergleichstest: 3 OCR Engines unter Linux

  1. Pingback: Ein Link, zwei, drei, vier… | König von Haunstetten

  2. Dankeschön, für Ihre Mühen!
    bin gerade dabei alles auf Linux(Ubuntu) zu portieren, später auf OpenSuse,
    OCR ist und war mein Steckenpferd 🙂 Vielen Dank nochmal..

Kommentare sind geschlossen.