Smarte Ansätze zur Speicher-Verteilung für Goobi?

Wir stehen gerade vor der Frage, neuen Speicher für unsere Goobi-Instanz zu bestellen.

Bisher nutzen wir das TaskManager-Plugin des “StorageBalancer” (4.13. Speicherverteilung über den Storage Balancer - intranda TaskManager (Deutsch)), um unsere Daten auf verschiedene Speicherbereiche zu verteilen.

Unser Rechenzentrum hat hier nun gefragt, ob wir nicht Teile unsere Daten auf günstigere Band-Speicher spielen wollen. Dort wäre der Zugriff durch uns dann um einiges langsamer (einige Minuten jeweils). Hier sind wir gerade recht zögerlich, da wir doch immer mal wieder insbesondere Metadaten anpassen an aktuellere Standards.

Eine Überlegung ist hier, doch nur die zumeist sehr umfangreichen Master-Dateien eines Vorgangs (die orig_…_tif-Verzeichnisse) auf den Band-Speicher auszulagern, und die übrigen Dateien auf schnell zugreifbaren Speichern zu belassen. Haltet ihr bei Intranda das denn für einen sinnvollen Weg?

Und welche Praktiken nutzt ihr anderen Goobi-Anwender*innen denn beim Umgang mit dem Speicherplatz in Goobi?

Wir schreiben alle unsere Mastertiffs im Archivierungsschritt auf eine weitere kleine NAS, sowie eine Erstversionaller Meta- und Strukturdaten. Alle diese Daten werden in einen Tarball gepackt.
Mit einem Sonderbutton Metadaten archivieren. Können dann jederzeit upgedatet werden. Da die archivierten Dateien immer einen Zeitstempel haben sieht man sofort, wenn Metadaten Neuerer Version vorhanden sind. Die Dubletten sind durch den Zeitstempel doch eindeutig identifizierbar. Die Mastertiffs sind die größten Speicherplatzfresser und werden so auf einen externen Speicher verschoben.

Vielen Dank für die Rückmeldung!
Dann löscht ihr auch die Mastertiffs bei euch auf dem Standard-Speicher-System?

Ja

Allerdings ist es so, dass unsere Mastertiffs auf einer Hauptsicherung sind und nachdem sie aus Goobi entfernt wurden, werden Sie nochmals auf eine zweite NAS gespiegelt.

Hallo Michael,

seid Ihr in dieser Sache schon weitergekommen?

Beste Grüße, Andreas

In Luzern liegen die meta.xml direkt auf der Serverplatte, die Bilddateien auf S3. Das heisst imho ein Splitting zwischen dem Speicherort der Bilder und der Metadatendatei ist Goobi schon in principo wohl nicht unbekannt, womöglich wäre das dann bei der Bandspeicher-Lösung auch eine Möglichkeit um zumindest die Zugriffsdauer auf die meta.xml nicht unnötig zu erhöhen.

1 „Gefällt mir“

Rein gefühlsmäßig würde ich die meta.xml auf jeden Fall auf dem Server lassen. In unserem LZA-Projekt haben wir vor, die Master-TIFFs gemeinsam mit den Metadaten im LZA-System zu speichern, wobei die Master-Dateien dann aus Goobi gelöscht werden. Wenn sie benötigt werden, müssen wir sie dann aus dem LZA-System holen. Das sollte aber weniger häufig der Fall sein als die Befassung mit den Metadaten.

1 „Gefällt mir“

Hallo Andreas,
bei uns hängts noch an unserem Server-Dienstleister, bei dem es sich leider verzögert.
Wir hoffen auf Februar/März.
Viele Gruesse und ein gutes neues Jahr!
Michael

1 „Gefällt mir“

2.4. Einbindung von S3 als Storage