Hi,
bei uns im Team gibt es gerade eine Diskussion darüber welche Zeichen bei Volltexten die aus der OCR kommen verwendet werden sollen. Dabei geht es zur Zeit erst einmal um das altdeutsche “ſ”
Hier ein Bildausschnitt:
Die OCR erkennt daraus folgenden Text:
Reizen des Hügellandes ſo reich geſegnetes Gebiet
die beſten Erinnerungen in unſere Heimat mit-
nehmen. Das Gelingen unſeres Ausfluges verdanken
wir jedoch in hohem Maße auch der perſöulichen
Liebenswürdigkeit der beiden Exkursionsleiter.
Es stehen sich nun verschiedene Meinungen gegenüber. Die eine Seite sagt: Das “ſ” wurde korrekt erkant und ausgezeichnet. Die OCR hat hier richtig gearbeitet. Alles was wir manipulieren führt zu schlechteren Ergebnissen. Die andere Seite sagt: Ein Nutzer erwartet heute in einem OCR geleſenen Volltext kein altdeutscheſ “ſ” ſondern ein “s”, alſo eher ſo ein Ergebniſ:
Reizen des Hügellandes so reich gesegnetes Gebiet
die besten Erinnerungen in unsere Heimat mit-
nehmen. Das Gelingen unseres Ausfluges verdanken
wir jedoch in hohem Maße auch der persöulichen
Liebenswürdigkeit der beiden Exkursionsleiter.
Wir sind uns im Team einig darüber, dass das Optimum natürlich wäre, wenn wir zwischen einer Ansicht von Originalzeichen und normierten Zeichen umschalten könnten, so wie es zum Beispiel das Deutsche Textarchiv anbietet. Allerdings gibt es für diese optimale Lösung verschiedene Aufgaben die noch gelöst werden müssten vorher:
- Erweiterung des Goobi viewers Core zur Unterstützung mehrerer Textquellen pro Bilddatei
- Erweiterung des Goobi viewer Indexers zum Erkennen von verschiedenen Textquellen und der Differenzierung was neu ist und was eventuell nur ein Update einer bestehenden Textfassung darstellt
- Erweiterung der Oberfläche und Bereitstellung eines Umschalters der Sprachversionen inklusive persistenter Verlinkung
- …
Deswegen steht gerade der Vorschlag im Raum: “Wir exportieren die angepasste Fassung ohne “ſ” und behalten das Original mit “ſ” weiterhin in Goobi workflow. Sobald die oben beschriebenen Schritte entwickelt und gelöst sind können dann mit einem Reexport der entsprechenden Werke beide Varianten für einen Endnutzer zur Verfügung gestellt werden.”
Was ist die Meinung in der Community dazu? Export mit “ſ” oder mit “s”?
Viele Grüße von
Jan