Zu sehen sind Porträts von Elisabeth Engl und Christian Reul, den Gästen dieser Podcast-Folge. #DigitalHumanities #OCR

RaDiHum20 spricht mit der AG OCR

RaDiHum20 hat mit den beiden Convenorn der DHd AG OCR, also Optical Character Recognition, Elisabeth Engl und Christian Reul gesprochen. Es ging um die AG, ihre Gründung und Entwicklung, die Technologie der optischen Zeichenerkennung und ihrer Relevanz für die Digital Humanities, sowie um die AG Eventserie auf der vDHd2021.

Link zur Folge

https://www.podcast.de/episode/586870367/radihum20-spricht-mit-der-ag-ocr

Die Gründung der AG aus dem Bedarf des Austausches heraus

Nach der Vorstellung von Christian und Elisabeth kommen wir ab Minute 2:13 auf die AG Gründung zu sprechen. Am Anfang stand der Wunsch, eine Plattform für Austausch und Vernetzung zu schaffen. Schnell kam die Idee auf, dies über eine Arbeitsgruppe im DHd-Verband zu realisieren – die Gründung erfolgte im September 2019. Der DHd-Verband erschien hierfür optimal, da die meisten der Interessierten ohnehin bereits in DH-Kontexten unterwegs waren., Zzudem stellt die jährlich stattfindende DHd-Jahreskonferenz eine gute Grundlage für regelmäßige Treffen dar. Ein großer Vorteil ist, dass in der AG nicht nur OCR-Entwickler*innen, sondern auch -anwender*innen aktiv sind.

Ab Minute 6:42 geht es um die Ziele der AG. Hier ist die Vermittlung zwischen Techniker*innen, die OCR-Tools entwickeln und Anwender*innen zentral, denn hier klaffen oft große Lücken in der Kommunikation der Bedarfe und Anforderungen. Es werden zu diesem Zweck werden Workshops von der AG veranstaltet, um beide Perspektiven zusammenzubringen.

OCR steht für Optical Character Recognition

Was OCR eigentlich ist, erläutert Christian ab Minute 9:50. “OCR” steht für “Optical Character Recognition”, also die optische Erkennung von Zeichen. Es handelt sich dabei um die Technologie, die den Sprung von (erstmal als Bild) gescannten Texten hin zu echten Texten vollzieht. “Echte” Texte im technischen Sinne lassen sich maschinell automatisiert verarbeiten und machen beispielsweise quantitative Textanalysen überhaupt erst möglich.

Von Neujahrskolloquien und PAGE XML

Ab Minute 11:45 erzählen Elisabeth und Christian von den Schwerpunkten der AG. Die Arbeitsgruppe sieht ihre Stärke vor allem im Austausch, der neben den AG-VideoTelefonkonferenzen über halbjährliche Treffen realisiert wird, die zweimal im Jahr stattfinden. Der Corona-Pandemie geschuldet, wurde als Ersatz für physische Treffen ein neues Format entwickelt: ein virtuelles Weihnachts- und Neujahrskolloquium, das sehr produktiv war. Ein konkretes Projekt der AG dreht sich um die Formatkonversion: Hintergrund war, dass das OCR Standard Datenformat PAGE XML zwar sehr ausdrucksstark und dementsprechend beliebt bei Entwickler*innen ist, sich aber, aufgrund der einhergehenden Komplexität, nur bedingt für die direkte Nachnutzung eignet. Deshalb wurden in einem durch den DHd-Verband geförderten Projekt bestehende Konvertierungsmethoden in nutzernahe Formate (TEI, PDF und ALTO XML) untersucht und bewertet. Da gerade bei der Konvertierung in den Bibliotheksstandard ALTO XML ein sehr großer Bedarf identifiziert werden konnte, wurden entsprechende Konvertierungsroutinen implementiert und frei zur Verfügung gestellt.

“Vom Bild zum Text – praktische OCR für die DH”

Über die vDHd-Veranstaltungsreihe der AG OCR mit dem Titel “Vom Bild zum Text – praktische OCR für die DH“ sprechen wir ab Minute 18:08. Hier bietet die AG eine Serie von Veranstaltungen an, die einerseits einen Überblick über die aktuellen Methoden und Tools gibt und andererseits den Raum bereitstellt, aktuelle Projekte und Herausforderungen bei der optischen Zeichenerkennung vorzustellen und zu diskutieren zu können. Großer Wert wurde auf die Einbindung von Demos und Praxisbeispielen gelegt, um den Teilnehmer*innen eine bessere Vorstellung von den Tools vermitteln zu können. Außerdem sindch die weitere Vernetzung von Wissenschaftler*innen in diesem Feld, sowie die Akquise neuer AG-Mitglieder, die Präsentation von Demos und Praxisbeispielen, sowie das Training von Modellen sind Ziele der fünf Veranstaltungen. So können Entwickler*innen auf dem Laufenden gehalten werden, was aktuelle Anforderungen bei Anwender*innen sind und auch welche Arten von Daten derzeit bearbeitet werden. Aufzeichnungen und Präsentationen der vDHd-Reihe sind auf der AG-Website zu finden. 

Die Zukunft der AG

Über die Perspektiven der AG unterhalten wir uns ab Minute 27:44. Selbstverständlich wünschen sich AG Convenor immer einen weiteren Zulauf an Mitgliedern – obwohl die AG OCR mit ihren 74 Mitgliedern bereits sehr gut aufgestellt ist. Es ist Wwünschenswert ist es, dass sich die AG noch stärker als Forum zu etablieren, sodass sie und die Community umfassenderauch noch stärker über OCR-Tools informieren kann, insbesondere über Open Source Software. Einer von Christians Herzenswünschen ist überdies, den technischen Schritt der Segmentierung bzw. der Layoutanalyse als AG-Projekt zu verbessern zu können, denn hier gibt es noch großes Verbesserungspotenzial bei etablierten OCR-Tools.

Alle, die sich für OCR interessieren, sind herzlich willkommen!

Wie man sich an der AG beteiligen kann, besprechen wir ab Minute 35:46. Grundsätzlich können sowohl beim vDHd-Event ebenso wie als auch bei der AG selbst alle mitmachen, die sich für das Thema OCR interessieren! Ein technischer Hintergrund ist nützlich aber nicht notwendig und alle können sich nach ihren eigenen Interessen, ihren eigenen Zeitressourcen und ihren eigenen Kompetenzen einbringen. Auch von den Forschungsgegenständen her ist alles möglich und sowohl Christian als auch Elisabeth begrüßen eine große Bandbreite an Schriften, Drucken, Sprachen, Textsorten etc.
Sowohl für die AG und als auch für die vDHd-Veranstaltungsserie erfolgt die Anmeldung über die AG Mailinglisten.

AG Webseite: https://dhd-ag-ocr.github.io/

AG Mailingliste: https://lists.uni-wuerzburg.de/mailman/listinfo/ag-ocr 

vDHd-Reihe Mailingliste: https://lists.uni-wuerzburg.de/mailman/listinfo/ocr-vdhd2021vDHd-Eventseite: https://vdhd2021.hypotheses.org/176

Diese Folge zitieren: Geiger, Jonathan; Kolodzie, Lisa; Schumacher, Mareike und Toschka, Patrick: "RaDiHum20 spricht mit der AG OCR," in: RaDiHum 20, 20. September 2021, https://radihum20.de/ocr/, date accessed: 21. Oktober 2021.
Beitrag erstellt 14

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Verwandte Beiträge

Beginne damit, deinen Suchbegriff oben einzugeben und drücke Enter für die Suche. Drücke ESC, um abzubrechen.

Zurück nach oben