Doppelte Identifer (z.B. PPNs) verhindern

Liebe Gemeinde,

wir haben eine Herausforderung, die uns an zwei Stellen zum Nachdenken anregt:

  1. In goobi.workflow würden wir gerne einen Hinweis haben, wenn ein (eigentlich eindeutiger) Identifier bereits in einem Vorgang in den Metadaten verwendet wurde. Damit wollen wir doppelte Verarbeitungen des gleichen Objektes verhindern. (Das passiert gerade, weil zwei Gruppen zeitversetzt den gleichen Bestand durcharbeiten und sich dabei manchmal in ihren Interessen überschneiden und die selben Objekte auswählen.)
  2. In der Vergangeheit bekam der SOLR des Viewers Schluckauf, wenn für den selben Identifier zwei Objekte hinterlegt waren. Das geschah meistens aus Versehen. Das lässt sich sich mit einer Operation in den Eingeweiden des SOLR beheben, ist aber etwas umstädlich. Ich würde es bevorzugen, wenn wir diese ID-Kollisionen vorher verhindern könnten.

Vielleicht gibt es dafür ja schon Lösungen?

Viele Grüße bbfks

PS: Das bespiegelt dieses Thema von einer anderen Seite Vorgang anlegen, wenn Identifier doppelt im Katalog vorkommt?

zu 1. Sollte nicht jetzt schon beim Anlegen eines Vorganges eine entsprechende Validierung stattfinden? Alleine schon, wenn der Vorgangstitel gebildet wird, müßte doch eine Doppelung auffallen? Welcher Identifier wird denn für den Vorgangstitel verwendet?

zu 2. Sollte die Lösung in Goobi oder in der Katalogisierung erfolgen?

zu 1. Bei uns wird das mehrfache Vorkommen eines Identifiers meines Wissen nicht geprüft.

Die Vorgänge können auf verschiedene Arten angelegt werden, z.B. über das Backend, aber auch über die API. Die Vorgangstitel können deswegen unterschiedlich sein.

Bei uns sind die Identifier PPNs aus dem Katalogsystem, aber auch IDs aus der Archivdatenbank.

Die Prüfung sollte eher auf die Identifier in der METS-Datei erfolgen. Und die Prüfung kann auch nur ein Hinweis sein, denn es kann ja erwünscht sein, dass etwas zweimal digitalisiert. (z.b. um etwas zu testen, es gibt eine PPN für zwei Dinge, usw.)

zu 2. Die Lösung wird sowohl goobi.workflow als auch im goobi.viewer benötigt.

@bbfks ich sehe hier keinen Ansatz für eine Lösung im Goobi viewer. Du möchtest doch Werke modifizieren, zum Beispiel einen Rechtschreibfehler korrigieren, Normdaten hinzufügen oder ähnliches, und danach neu exportieren. Der Identifier bleibt dabei gleich. Ein Hinweis würde zu unsagbar vielen Meldungen führen, zum Beispiel, wenn der Index neu aufgebaut werden muss.

Meines Erachtens ist hier nur eine Validierung in Goobi workflow sinnvoll.

Eine Lösung, die bei uns viele der genannten Fehler abgefangen hat, war der Umstieg von der PPN auf die EPN (A-Satz) als eindeutiger Identifier. Damit ist es kein Problem mehr, weitere Exemplare eines identischen Titels in Goobi workflow aufzunehmen.

Ja, versteh ich, aber: irgendwie hatten wir es trotzdem geschafft zwei Werke zu exportieren (in einem war die PPN falsch), mit dem Ergebnis, dass keines mehr sichtbar war, sondern nur eine Fehlermeldung des solr.

Passt ledier nicht: wenn beide Gruppen die EPN verwenden, haben sie ja doch wieder denselben Identifier benutzt. Oder?

Wenn ich mir die Prozesskette anschaue ist der Fehler aber in Goobi workflow passiert. Deswegen finde ich sinnvoll diesen auch an der Stelle abzufangen.

Das Einzige was ich mir im Goobi viewer Indexer vorstellen kann ist eine Warnung, wenn ein Werk existiert und dann mit dem gleichen Identifier und dann einem anderen Publikationstyp indexiert werden soll. Ich würde dann aber nicht abbrechen, sondern nur eine Warnung ausgeben. Erst vorletzte Woche hatten wir wieder den Fall, dass ein Anwender darum gebeten hat in Goobi workflow den Publikationstyp von monograph auf map zu ändern und die Werke neu zu exportieren. Wenn der Indexer das verweigert hätte, wäre es zum Beispiel blöd gewesen mit Zeitstempeln.

Wenn wir das auf ERROR loggen aber die Indexierung dennoch durchführen, dann greift auch die Emailbenachrichtigung.

Die Frage ist aber auch wie “teuer” diese Anpassung ist, also wie viel mehr Zeit für die zusätzliche Prüfung verwendet wird und wie da das Kosten/Nutzen Verhältnis ist.

Wie gesagt: Ich würde erst einmal mit Goobi workflow anfangen und wenn das keine Verbesserung bringt dann eventuell im Goobi viewer Indexer noch nachziehen.

“Passt ledier nicht: wenn beide Gruppen die EPN verwenden, haben sie ja doch wieder denselben Identifier benutzt. Oder?”

Kommt auf das Szenario an. Bei uns könnte keine doppelte analoge EPN vergeben vergeben werden. Wir nutzen die analoge EPN für die Bildung des Vorgangstitels. Da der Vorgangstitel eindeutig sein muss, und dies beim anlegen eines Vorganges auch systemseitig geprüft wird, läßt sich ein weiterer Vorgang nicht anlegen.

Doppelte digitale EPNs prüfen wir bis jetzt nicht beim anlegen eines Vorganges.