OCR-Qualität messen

Manuela · 26. Oktober 2020 um 09:22

Hallo zusammen,

das Thema hat jetzt weniger mit dem TM zu tun, als mit der OCR … also wenn es falsch ist, muss es evtl. verschoben werden.

Ich wollte einmal in die Runde fragen, ob es hier einige Institutionen gibt, die ihre OCR-Qualität messen und wenn ja wie.
Wir steigen gerade nämlich in das Thema ein… Das Intranda-Tool dazu ist uns bekannt. Und es interessiert uns wie andere mit dem Thema umgehen, also ob eine Prüfung sporadisch oder fest im Workflow statfindet und welche (anderen?) Tools wie dafür benutzt werden … es gibt ja einige Lektüre und Vorträge zu dem Thema, aber wie sieht das in der Praxis aus?

Vielen Dank und viele Grüße
Manuela.

bbfks · 27. Oktober 2020 um 12:39

Wir lieben tesseract.

tesseract liefert wunderbare Ergebnisse für Mensch und Maschine out of the box. Man kann trainieren - muss man aber nicht. Unsere nach üblichen Standards gescannten Bücher aus dem 19. und 20. Jahrhundert mit üblichen Schriftarten (Fraktur, Antiqua, Typoscript) werden von tesseract verarbeitet und ungeprüft als Roh-OCR in den Viewer exportiert. Wir messen das nicht, weil es den Aufwand nicht lohnt.

Für schwierigere Schriftbilder des 18. Jahrhunderts (und davor) haben wir einen Qualitätsschritt, ob es sich lohnt das OCR-Ergebnis zu exportieren: Diesen Schritt kann man kaum messen nennen. Entweder es ist auf den ersten Blick lesbar oder nicht, bzw. für eine indexer verarbeitbar oder nicht.

Gängige OCR - habe ich schon gesagt, dass wir tesseract toll finden? - ist wunderbar zuverlässig.

Darüberhinaus kommt es ganz auf den Zweck an: der erste Augenschein, der Eindruck nach drei Seiten Lektüre, eine Qualitätsmessung mit ca. 10.000 Zeichen usw. sind alles legitime Methoden.

Eine Anmerkung zum Messen: Die DFG-Vorgabe zur Prüfung mit einem Bernoulli-Experiment ist eine Nebelkerze und vielleicht für Anträge an die DFG relevant. - Das Tool von intranda (https://ocrquality.goobi.io/ ) ist das einzige, was das kann: Dafür können wir dankbar sein.