Bericht Praxis-Workshop - if

Interdisziplinärer Forschungsverbund
Digital Humanities in Berlin

Zusammenfassung Praxis-Workshop „Nachhaltige Bereitstellung von komplexen Präsentationsumgebungen“ (08.11.2017, BBAW)

(Bericht von Christiane Scherch und Ulla Tschida)

Am ersten Praxis-Workshop aus der if|DH|b-Serie „Nachhaltiges Datenmanagement in den Geisteswissenschaften – Erfahrungen aus der Datenkuration“ haben sowohl Mitglieder des ifdhb-Forums Nachhaltigkeit als auch des Netzwerks Forschungsdaten Berlin-Brandenburg teilgenommen, der Workshop war mit 20 Teilnehmern ausgebucht.

Frau Tschida (if|DH|b) erläuterte zu Beginn Hintergrund und Motivation der Workshop-Serie (siehe Agenda). Durch die aktuelle nationale und regionale Dynamik im Bereich Forschungsdatenmanagement und Forschungsdateninfrastrukturen soll die Workshop-Serie den praktischen Erfahrungsaustausch sowie die Vernetzung der Akteure in den Bereichen (geisteswissenschaftliches) Forschungsdatenmanagement und Datenkuration/Datenarchivierung unterstützen. Im Fokus steht dabei die enge Verbindung zwischen Entscheidungen im Datenmanagement und den Möglichkeiten und Bedingungen der nachhaltigen Bereitstellung und Nutzung von Forschungsdaten, insbesondere bei komplexen und/oder dynamischen Objekten.

Im inhaltlichen Teil des Workshops wurden zwei Ansätze für die nachhaltige Bereitstellung komplexer Präsentationsumgebungen vorgestellt und diskutiert.

Dr. Sven Bingert (GWDG Göttingen) berichtete über die Angebote und Erfahrungen am HDC Göttingen im Bereich der Anwendungskonservierung. (siehe Folien) Das HDC wurde im August 2016 als Kooperation zwischen der SUB und der GWDG gegründet, kooperiert derzeit mit DARIAH-DE und strebt die Kooperation mit anderen nationalen Datenzentren für die Geisteswissenschaften an. Basierend auf einer Design-Studie des HDC wurden spezifische Anforderungen für die Archivierung komplexer Software-Umgebungen identifiziert, die über den technischen Dienst der Anwendungskonservierung adressiert werden. Dabei werden Forschungsdatentypen wie Webdienste, Editionen oder Visualisierungen in sicherer Umgebung konserviert („eingefroren“), der interessierte Nutzer kann über unterschiedliche Zugriffsarten auf die ursprüngliche Browser-Umgebung der Anwendung zugreifen. (siehe Demoversion). Nach einem Überblick über die technische Architektur des Dienstes folgt ein Einblick in bisherige Erfahrungen und geplante Weiterentwicklungen. Die ersten Erfahrungen mit Test-Cases sind positiv, es fehlen jedoch derzeit noch „echte“ Anwendungen. Der Prototyp wird in den DARIAH-DE Dienstekatalog aufgenommen und kontinuierlich weiterentwickelt, u.a. hinsichtlich Verbesserungen bei Look&Feel, den Reaktionszeiten, der Sicherheit sowie der Extraktion der Primärdaten. Projekte, die Interesse an dem Dienst haben, können sich am HDC melden, es bestehen jedoch (wie auch bei anderen Anbietern) praktische Einschränkungen hinsichtlich bundesländer-übergreifender Bereitstellung von Diensten. Generell wird jeder potentielle Datenlieferant umfassend beraten, um sicherzustellen, dass die Anwendungskonservierung der richtige Ansatz ist für die geplante Archivierung ist. Grundsätzlich ist die Anwendungskonservierung nur dann sinnvoll, wenn alle Funktionalitäten der Anwendung erhalten werden können. Eine entsprechende Garantie ist bspw. bei der Einbindung vieler externer (potentiell unsicherer) Quellen eingeschränkt. Anwendungskonservierung ist kein „working archive“, d.h. es werden keine Änderungen an der Anwendung (und ihren Inhalten) konserviert; die eigentlichen Inhalte der Anwendung werden getrennt von der Anwendung archiviert. Ein individueller Download für Daten, die durch die konservierte Anwendung generiert werden, ist derzeit nicht geplant.

Gerald Neumann (BBAW) berichtet im zweiten Vortrag über einen anderen Ansatz, komplexe Präsentationsumgebungen nachhaltig bereitzustellen. Am Beispiel des BBAW-Langzeitvorhabens „Inscriptiones Graecea (IG)gibt er Einblick in die Aufwände für die Sicherstellung des laufenden Zugriffs und der Nutzung von „komplexen digitalen Objekten“, i.e. digitalen Ergebnissen, die aus Forschungsdaten und implementierten, komplexen Funktionalitäten bestehen. Dabei wird deutlich, dass sich Kurationsaufwände nicht nur auf die Daten/Inhalte beziehen, sondern auch auf die Anwendung bzw. ihre Funktionalitäten. Die digitale Edition muss inhaltlich erweiterbar sein, bspw. wenn bestehende Objekte modifiziert, erweitert, ergänzt werden oder in neue/veränderte Nachweissysteme eingebunden werden. Parallel werden laufend neue Werkzeuge (wie Transformationstools) eingebunden. Entsprechend müssen sowohl die unterschiedlichen technischen Komponenten (existDB, Schnittstellen, Front-End, Webtechnologien etc.) als auch der eigentliche Inhalt kontinuierlich aktualisiert werden. Da notwendige Eingriffe für den Systemerhalt (wie Servervirtualisierungen oder Updates) mit dem Fortschritt im Editionsprojekt gekoppelt bzw. koordiniert werden müssen, geht der Kurationsaufwand auch über „Standardroutinen“ in der Pflege eines technischen Systems hinaus.

In der anschließenden Diskussion wurde zum einen deutlich, dass es hinsichtlich der Beratung/Empfehlung von Archivierungslösungen keinen „one size fits all“-Ansatz geben kann, da es von vielen projektspezifischen Variablen abhängt, welcher Ansatz sinnvoll und machbar (finanzierbar) ist. Je nach Projekt kann bspw. variieren, ob Ergebnisse „für die Ewigkeit“, oder auch „nur“ für die nächsten 10 Jahre archiviert werden sollen. Gleichzeitig kann je nach Archivierungsansatz variieren, mit welchen Aufwänden (Zeit, Kosten) für wen gerechnet werden muss. Im Fall der Anwendungskonservierung werden bspw. Wissenschaftler zu Beginn eingebunden, sind aber für die Sicherstellung der Konservierung selbst nicht mehr notwendig. Im Fall der kontinuierlichen Pflege/Aktualisierung einer digitalen Edition in einem Langzeitvorhaben braucht es eigens beauftragtes Personal, im besten Fall ein Team, das sowohl technologische als auch inhaltliche Expertise mitbringt und in engem Austausch mit den Wissenschaftlern steht.

Basierend auf ihren Erfahrungen betonten beide Vortragenden, dass sinnvollerweise bereits im Kontext einer Beratung für Datenmanagement-Pläne sensibilisiert werden sollte für die Konsequenzen einer spezifischen Datenstrukturierung und –auszeichnung – nicht nur für die Bereitstellung/Findbarkeit der Ergebnisse (Einbindung in externe Nachweissysteme), sondern auch für die spätere Nutzung in anderen Kontexten. Durch die technologische Dynamik im Bereich von Web-Technologien kann zwar niemand eine Garantie für die Langlebigkeit eines spezifischen Datenformats/ einer spezifischen Archivierungslösung geben, umso wichtiger ist aber die Nutzung von Standards, die das Risiko von „nicht mehr lesbaren/interpretierbaren Inhalten“ reduzieren und die Überführung von Ergebnissen von einer Langzeitlösung in eine andere erleichtern. Eine weitere Empfehlung war die frühzeitige Klärung bzw. Differenzierung der Erwartungen des Forschungsprojektes an die langfristige Bereitstellung seiner Ergebnisse: Welche Daten müssen „für immer“ und welche zumindest „für die 10 Jahre nach DFG-Richtlinie“ archiviert werden? Welche können „eingefroren“, welche sollen kontinuierlich erweitert/ergänzt/manipuliert werden? Welche Daten sollen für andere extrahierbar/downloadbar sein?

Die Diskussion zeigte auf, dass –unabhängig von den Vor- und Nachteilen spezifischer Archivierungsansätze – noch zahlreiche gemeinsame organisatorische Probleme bestehen, die sowohl Datenmanagement als auch Datenkuration betreffen.

So wurde bspw. die Frage diskutiert, wie Forschungsdaten-Manager Wissenschaftler effektiv beraten sollen, wenn potentielle Kosten (für ggf. unterschiedliche zeitliche Garantien wie „ewig“ oder „10 Jahre“), Finanzierungsoptionen oder Kriterien für die Selektion von „archivierungswürdigen“ Daten unklar sind. Im Kontext von Beratungen stehen Forschungsdaten-Manager häufig vor dem Dilemma, zwar Empfehlungen für Standards/Strukturierung von Forschungsdaten abgeben zu können, aber wenig belastbare Informationen haben, wohin die -im besten Fall optimal aufbereiteten- Daten nach Projektende abgegeben werden sollen/können. Die konkreten Bedingungen einzelner Anbieter sind häufig unklar (z.B. hinsichtlich Ingest, Kosten, Dauer der Archivierung, regionale oder institutionelle Einschränkungen im Angebot von Dienstleistungen). Entsprechend wird in der Praxis auf die Angebote und Expertise der beiden großen nationalen Infrastrukturprogramme Clarin und Dariah hingewiesen, konkrete Informationen über Möglichkeiten und Bedingungen der Archivierung sollten aber möglichst vor Projektstart eingeholt werden (siehe https://www.clarin-d.net/de/aufbereiten bzw. https://de.dariah.eu/archivieren). Insbesondere ungelöste Fragen der Finanzierung von Archivierungsdiensten über Bundesländer hinweg machen derzeit eine effektive Beratung von Wissenschaftlern schwierig. Parallel können Anbieter ihre Dienste nur eingeschränkt bewerben bzw. SLAs und Kostenmodelle ausformulieren, solange die Möglichkeiten der Finanzierung nicht geklärt sind.

Ein weiteres gemeinsames Problem sind fehlende Instrumente, um Wissenschaftler als auch politische Entscheidungsträger für die Notwendigkeit eines nachhaltigen Zugriffs auf Forschungsdaten zu sensibilisieren. In diesem Kontext wurde eine Sammlung von „worst case Szenarien“ vorgeschlagen, i.e. prägnante Beispiele für nicht mehr auffindbare/lesbare/nachvollziehbare Ergebnisse, um für die Relevanz des Themas zu sensibilisieren. Generell wurde die Sichtbarkeit bzw. „Auffindbarkeit“ von Forschungsergebnissen als wichtige Bedingung diskutiert, um Förderer, Politik, aber auch Wissenschaft von der Notwendigkeit von Maßnahmen für deren nachhaltige Verfügbarkeit zu überzeugen. Insbesondere bei kleineren, nicht-universitären Einrichtungen fehlt es an grundlegender Infrastruktur, um Ergebnisse (Daten/Software) überhaupt für andere bereitzustellen, unabhängig von Entscheidungen über Archivierungslösungen.

Abschließend tauschten sich die Teilnehmer noch über mögliche inhaltliche Schwerpunkte der nächsten Praxis-Workshops aus. Explizite Prioritäten wurden nicht angesprochen, hingegen wurden zwei Themen der Diskussion nochmal aufgegriffen, die bei der weiteren Planung berücksichtigt werden:

  • (Nach)Nutzung? (Forschungsdaten/Software werden zwar abgelegt/veröffentlicht, aber nicht unbedingt (nach)genutzt. Liegt es an der schlechten „Qualität“ der Daten/Software, die Findbarkeit, Referenzierbarkeit, Nutzbarkeit einschränken? Liegt es an mangelndem Interesse/Anreizen, Daten/Software anderer nachzunutzen?)
  • Sensibilisierung von Wissenschaftlern/Entscheidungsträgern für das Thema Nachhaltigkeit („worst case Szenarien“)