This post shows results of an internal workshop with a historical collection at Bern University. In a draft version ! to be updated!
Workshop Beschreibung
Das Zentrum für Historische Bestände der UB Bern richtet im Winter 2024/2025 eine Ausstellung zu Benedikt Aretius aus. Aretius, mit bürgerlichem Namen Marti, war ein Berner Gelehrter des 16. Jahrhunderts, der in Strassburg und Marburg studierte und ab den 1540er-Jahren in Bern an der Hohen Schule unterrichtete, zuerst alte Sprachen, dann Theologie. Er war einer der angesehensten Theologen, die Bern im 16. Jahrhundert hervorgebracht hat. In der UB befinden sich heute rund 30 Bände aus seinem ehemaligen Besitz, sie gelangten nach seinem Tod 1574 in die Bibliothek der
Hohen Schule, was sich dieses Jahr zum 450. Mal jährt. Alle diese Werke (Signaturen Aretius 1–17) sind auf erara verfügbar; eines der Ziele des Workshops ist es, Möglichkeiten der Nutzung dieser Daten aufzuzeigen.
Im Workshop testen wir aktuelle Möglichkeiten der Digital Humanities anhand der Bände von Aretius aus. Im Zentrum steht dabei der Versuch, innerhalb eines kurzen Zeitraums mit nutzerfreundlichen Ansätzen digitale Auswertungen zu generieren. Die jeweiligen Auswertungsformen werden kurz und knapp und mit Blick auf die Anwendung eingeführt und danach von den Teilnehmenden selbst ausgetestet. Stärker als auf die Resultate werden wir den Fokus auf den Weg dahin legen und abschätzen, welche Methoden für welche Formen bereits genutzt werden können.
Im Rahmen des Workshops werden wir folgende Ansätze austesten:
- Texterkennung mit Transkribus (inkl. Import aus IIIF-Quellen)
- Entiätenerkennung mit FlairNLP (ausgeführt über ein System, das im Terminal läuft)
- Ergänzung der Textannotation mit Transkribus (manuell)
- Auswertungs- und Visualisierungsansätze mit Voyant-tools.
- Datenpublikation auf Zenodo
- Erarbeitung einer Showcase-Seite für die Datenpublikation in inseri
Textbeispiel 2 – Iustinian
Zwei Gruppen haben sich der Texterkennung und NER-Erkennung des deutschen Textbeispiels gewidmet.
IIIF-Bild-Anzeige
Wir nutzen den “IIIF-Viewer-Block”, um den untersuchten Band https://www.e-rara.ch/doi/10.3931/e-rara-125335 anzuzeigen:
IIIF Metadaten-Anzeige
Über die Blöcke “Web API” und “Python-Code” können die zugehörigen Metadaten aus dem iiif-manifest ausgegeben werden:
Daten-Vorbereitung
Wir haben die Bilddaten via iiif-Manifest nach Transkribus importiert, automatisch Volltext (Modell Transkribus Print M1) und Named Entities (https://huggingface.co/flair/ner-german-large) für Seiten XY erkennen lassen, sowie die Resultate überprüft und manuell nachgebessert (wo nötig).
Datei-Import
Der Volltext kann aus Transkribus als txt-Datei exportiert und mit dem, Block “local file import” hier hochgeladen und im Block “Text viewer” angezeigt werden:
Zudem werden die Resultate für die Seiten 6-10 aus Transkribus exportiert (Tag Export Excel) und als csv abgespeichert. Mit einem Python Skript wurden aus diesem csv zwei JSON Dateien erstellt, die auf Zenodo publiziert worden sind.
Zenodo-Import
Die publizierten Daten können wir hier nun mit dem Block “Zenodo Repository” reinladen (die DOI wird erst nach der Publikation während dem Workshop funktionieren):
Visualisierung
Nun können die beiden Dateien mit dem Block “Plotly Chart” dargestellt werden:
- Im ersten Beispiel werden die auftretenden Namen gezählt:
- Im zweiten Beispiel wird das Verhältnis der erkannten Entitätstypen dargestellt:
[hier noch ein Versuch mit einem Kuchendiagramm, der während Workshop entweder manuell im Editor, oder mit Import eines lokalen Files angepasst werden kann > zurzeit sind noch falsche Daten drin:]
Eine weitere Gruppe hat das Ergebnis der beiden anderen Gruppen visualisiert. Dies sind zwei Visualisierungsergebnisse von Gruppe 2:
<div class="wp-block-inseri-core-text-editor" data-attributes="{"blockId":"LMABLGLTLM3d9jtmld3cs","blockName":"textEditor-lTj","content":"<iframe style='width: 424px; height: 255px;' src='https://voyant-tools.org/tool/Cirrus/?stopList=keywords-72f0262c7b106b79d7566103b8fd9021&corpus=d3cbe6b806eb767986aca631c0cf896d'>is loading …
Leave a Reply