Nachlese - if

Interdisziplinärer Forschungsverbund
Digital Humanities in Berlin

Nachlese des Praxisworkshops am 12.07.2018 an der BBAW

von Nico Friesenhan (if|DH|b)

Am Donnerstag, den 12. Juli 2018 lud der if|DH|b im Rahmen der Veranstaltungsreihe „Nachhaltiges Datenmanagement in den Geisteswissenschaften – Erfahrungen aus der Datenkuration” zum Praxis-Workshop unter dem Thema „Gute Daten? Schlechte Daten? Aspekte der Datenqualität in der (Nach-) Nutzung geisteswissenschaftlicher Forschungsdaten" in die Räumlichkeiten der Berlin-Brandenburgischen Akademie der Wissenschaften ein.

Für Einblicke in die fachliche und technische Aspekte einer Datenqualität konnten die Organisatoren drei Vortragende, Marius Hug (BBAW, if|DH|b), Christian Thomas (BBAW, CLARIN-D) und Prof. Dr. Thomas Gloning (Universität Gießen, Germanistik) gewinnen, welche im Kontext ihrer eigenen Forschung reichlich Erfahrung bezüglich Herstellung, Überprüfung und Nutzung “guter” wie “schlechter” Daten sammeln konnten und Einblicke in ihre Erfahrungen vorstellten. Das verbindende Glied zwischen den Vorträgen war das Dingler-Korpus – die gemäß TEI P5 ausgezeichneten Volltexte aus dem DFG-geförderten Projekt „Digitalisierung des Polytechnischen Journals“, das zwischen 2008 und 2015 am Institut für Kulturwissenschaft an der Humboldt-Universität zu Berlin durchgeführt wurde –, womit alle drei Referenten in unterschiedlichen Kontexten gearbeitet haben.

Zunächst eröffnete Ulla Tschida, Mit-Koordinatorin des if|DH|b, den Workshop und stellte die sogenannten FAIR-Prinzipien vor, mit denen die Qualität von Forschungsdaten anhand vier generischer Kriterien (Findable, Accesible, Interoperable, Reusable) beurteilt werden kann. Laut aktuellen Berichten der FAIR Expert Group stellen  Interoperabilität und Nachnutzbarkeit von Daten in anderen Kontexten derzeit die größten Herausforderungen in der Umsetzung der FAIR-Prinzipien dar, u.a. wegen rechtlicher Einschränkungen in der Zugänglichkeit, weshalb FAIR-Data nicht unbedingt auch “offen” sein müssen. Aber auch unterschiedliche Anforderungen von fachlicher wie technischer Seite, bspw. hinsichtlich fehlender Detailspezifikationen oder fehlender Erklärungen technischer Begrifflichkeiten, verweisen auf die Schwierigkeiten, allgemein gültige Kriterien einer Datenqualität festzulegen, die eng an fachspezifische Wertvorstellungen, konkrete Forschungsfragen oder spezifische technologische Bedingungen geknüpft ist.

Anschließend sprach Marius Hug, der als Wissenschaftlicher Mitarbeiter an der Digitalisierung und Aufbereitung des Dingler-Korpus beteiligt war. Dabei bestand seine Aufgabe darin, die von einem externen Dienstleister gelieferten TEI-konformen Daten halbautomatisiert weiter auszuzeichnen. Da der Dienstleister qualitativ sehr hochwertige Daten zugearbeitet hatte, konnten dadurch inhaltlich weitergehende Auszeichnungen bspw. von Personen oder Orten vorgenommen werden. Das Ergebnis steht nun als voll durchsuchbares und mit Querverweisen verlinktes Korpus online zur Verfügung, in dem Grafiken und Figuren originalgetreu ausgezeichnet und entsprechend verlinkt sind.

Als zweiter Vortragender sprach Christian Thomas, der als Wissenschaftlicher Mitarbeiter dafür verantwortlich war, das Dingler-Korpus in die Korpus-Infrastruktur des Deutschen Textarchivs bzw. CLARIN-D zu überführen. Wegen der sauberen Arbeit beim Erfassen und Aufarbeiten der Korpusdaten, vor allem aber aufgrund der TEI-konformen Auszeichnung der Daten, gestaltete sich die Integration des Dingler-Korpus als vergleichsweise einfach. Im Folgenden berichtete Herr Thomas über eigene Erfahrungen hinsichtlich der Weiterverwendbarkeit von historisch ausgezeichneten Daten und etwaige Probleme, die dabei öfter auftreten. Unabdingbar für die Sicherstellung qualitativer Merkmale sei ein detaillierter und strikt einzuhaltender Datenmanagementplan, welcher möglichst vor dem eigentlichen Erfassen der Rohdaten stehen sollte. Nur so lasse es sich gewährleisten, dass das Endprodukt ohne weitere Probleme in größere Repositorien wie in das Deutsche Textarchiv und die CLARIN-D-Infrastruktur überführt werden könne. Herr Thomas zeigte zudem einige Beispiele für die Missachtung bestehender Standards und Best Practices. Dadurch entstehen „schlechte Daten“ im Sinne des Veranstaltungstitels – etwa durch unsauberes Datenmanagement, die Missachtung der TEI- bzw. anderer einschlägiger und sowohl von der Fach- als auch der technischen Community akzeptierter Richtlinien oder auch durch eine idiosynkratische Verwendung von Annotationsmerkmalen.

Der letzte Vortragende des Workshops, Thomas Gloning, gab Einblick in ausgewählte Fragestellungen der sprach- und kommunikationswissenschaftlichen Forschung, die er anhand des digitalisierten Dingler-Korpus und unterschiedlicher linguistischer Werkzeuge illustrierte. (Die Folien des Vortrags finden Sie hier.) Dabei verwies er anhand unterschiedlicher Szenarien, bspw. der lexikalisch-semantischen Suche oder der Analyse von syntaktischen Strukturen, auf bekannte Probleme in der Untersuchung historischer, digitalisierter Texte, die zum Teil auf fehler- oder lückenhafte Kodierung der Vorlagen zurückgehen und sich nur durch aufwändige manuelle Nacharbeit beheben lassen, die zum Teil aber auch prinzipieller Natur sind, z.B. die Unterscheidung von Verwendungsweisen von Wörtern, die in historischen Texten derzeit nicht zuverlässig automatisierbar ist (z.B. "Birne" für die Frucht, den Leuchtkörper, die Abrissbirne oder "Schifflein" für ein kleines Schiff oder im Bereich der Webstuhltechnik). Neben der Qualität der zugrunde liegenden Daten betonte Gloning auch die Notwendigkeit der Qualität der Werkzeuge, die für ihre Analyse eingesetzt werden, bspw. im Kontext hochkomplexer Suchanfragen. In diesem Sinn verweist er auf eine Leerstelle hinsichtlich der systematischen Qualitätskontrolle digitaler Werkzeuge, für die es gegenwärtig keine neutralen, unabhängigen “Eichwerkzeuge” gibt.

Begleitend zur Nachlese finden Sie hier eine thematisch geordnete Link-Liste aus den einzelnen Vorträgen.