This post shows results of an internal workshop with a historical collection at Bern University.
An der Erarbeitung des Blog-Posts mitgewirkt haben: Stefan Matter (Universitätsbibliothek Bern), Tobias Hodel (Digital Humanities, Universität Bern), Ursula Loosli (Universitätsbibliothek Bern), sowie Teilnehmende des Workshops (sowohl Mitarbeitende der Universitätsbibliothek als auch Mitarbeitende und Doktorierende in den Digital Humanities)
Das Zentrum für Historische Bestände der UB Bern richtet im Winter 2024/2025 eine Ausstellung zu Benedikt Aretius aus. Aretius, mit bürgerlichem Namen Marti, war ein Berner Gelehrter des 16. Jahrhunderts, der in Strassburg und Marburg studierte und ab den 1540er-Jahren in Bern an der Hohen Schule unterrichtete, zuerst alte Sprachen, dann Theologie. Er war einer der angesehensten Theologen, die Bern im 16. Jahrhundert hervorgebracht hat. In der UB befinden sich heute rund 30 Bände aus seinem ehemaligen Besitz, sie gelangten nach seinem Tod 1574 in die Bibliothek der
Hohen Schule, was sich dieses Jahr zum 450. Mal jährt. Alle diese Werke (Signaturen Aretius 1–17) sind auf erara verfügbar; eines der Ziele des Workshops ist es, Möglichkeiten der Nutzung dieser Daten aufzuzeigen.
Im Workshop testen wir aktuelle Möglichkeiten der Digital Humanities anhand der Bände von Aretius aus. Im Zentrum steht dabei der Versuch, innerhalb eines kurzen Zeitraums mit nutzerfreundlichen Ansätzen digitale Auswertungen zu generieren. Die jeweiligen Auswertungsformen werden kurz und knapp und mit Blick auf die Anwendung eingeführt und danach von den Teilnehmenden selbst in Gruppen ausgetestet. Stärker als auf die Resultate werden wir den Fokus auf den Weg dahin legen und abschätzen, welche Methoden für welche Formen bereits genutzt werden können.
Im Rahmen des Workshops werden wir folgende Ansätze austesten:
- Texterkennung mit Transkribus (inkl. Import aus IIIF-Quellen)
- Entiätenerkennung mit FlairNLP (ausgeführt über ein System, das im Terminal läuft)
- Ergänzung der Textannotation mit Transkribus (manuell)
- Auswertungs- und Visualisierungsansätze mit Voyant-Tools.
- Datenpublikation auf Zenodo
- Erarbeitung einer Showcase-Seite für die Datenpublikation in inseri
Textbeispiel Iustinian
Zwei Gruppen haben sich mit diesem Textbeispiels beschäftigt:
Iustinianischer Instituten warhaffte Dolmetschung, darinn der grossmechtigst Kayser Iustinian den ersten Grond geschribner Recht hat fürgebildet. [Augspurg] : [Alexander Weyssenhorn], 1538. Universitätsbibliothek Bern. , MUE Aretius 11 : 2 https://doi.org/10.3931/e-rara-125335 / Public Domain Mark
IIIF-Bild-Anzeige
Im “IIIF-Viewer-Block” kann der untersuchte Band https://www.e-rara.ch/doi/10.3931/e-rara-125335 angezeigt werden:
IIIF Metadaten-Anzeige
Über die Blöcke “Web API” und “Python-Code” können die zugehörigen Metadaten aus dem iiif-manifest ausgegeben werden:
Daten-Vorbereitung
Wir haben die Bilddaten über das IIIF-Manifest (https://www.e-rara.ch/i3f/v20/29670689/manifest) in Transkribus importiert. In Transkribus wurde in Gruppenarbeiten in geteilten Collections mit Volltext- und Named Entities Erkennung gearbeitet. Für die Texterkennung wurde das Modell Transkribus Print M1 genutzt, für die Erkennung der Named Entities wurde mit https://huggingface.co/flair/ner-german-large) gearbeitet.
Aus Transkribus haben wir die erarbeiteten Daten zu den ersten 9 Seiten im Format “Tag Export Excel” exportiert und den Export in zwei CSV-Dateien überführt (einmal mit allen Tags (overview) und einmal mit den Tags für die Personen).
Mit Python Skripten wurden aus diesen CSV Dateien zwei JSON Dateien erstellt, wovon eine die auftretenden Namen und eine alle auftretenden Entities enthält.
Visualisierung
Diese Daten können über einen “Text Editor Block” reinkopiert und anschliessend je in einem Block “Plotly Chart” visualisiert werden:
- Das erste Beispiel zählt die auftretenden Namen:
- Das zweite Beispiel zeigt das Verhältnis der erkannten Entitätstypen:
Im folgenden Text-Editor werden die gleichen Daten in Form eines Kuchendiagramms dargestellt. Total wurden 99 Entities erkannt, davon 80 x PER, 18 x LOC und 1 x ORG. Das sind jeweils 80.8 %, 18.18% und 1.01%.
Eine weitere Gruppe hat die Daten als Text exportiert und mit den Voyant Tools visualisiert. Dies sind zwei Visualisierungsergebnisse von Gruppe 2:
<div class="wp-block-inseri-core-text-editor" data-attributes="{"blockId":"GcM1lZUxWxjFL0dFugB2F","blockName":"textEditor-MmG","content":"is loading …
Leave a Reply
You must be logged in to post a comment.