Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

dipl-Transkription

Die grundlegende, diplomatische Ebene (dipl) beinhaltet die Transkription von Faksimilés und stellt den ersten Schritt für die korpuslinguistische Aufbereitung dar.

Diese Ebene soll sich grafisch hinsichtlich Orthografie, Getrennt- und Zusammenschreibung und Sonderzeichen möglichst nah am zugrunde liegenden Faksimile orientieren. Grundsätzlich wird so auch entgegen modernen Orthografieregeln segmentiert oder transkribiert. Sie wird entweder durch OCR (Optical Character Recognition) oder manuell erstellt und korrigiert.

In diesem Abschnitt finden sich folgende Informationen:

  1. OCR
  2. Manuelle Transkription
  3. Transkriptionsrichtlinien
  4. Automatische Tokenisierung

OCR

Als Grundlage für die dipl-Ebene dienen Faksimiles der Primärwerke. Um aus diesen maschinenlesbaren Text zu erhalten, wird OCR4all genutzt. Der Workflow besteht aus folgenden Schritten:

  • Preprocessing
  • Noise removal (optional)
  • Segmentation mit LAREX
  • Line Segmentation
  • Recognition
  • Ground Truth Production mit LAREX
  • Training (optional)

Weitere Details und Dokumentation: https://www.ocr4all.org/guide/user-guide/introduction

Der OCR-Output wird mit dem TreeTagger tokenisiert und die Tokenisierung manuell nachbearbeitet korrigiert.

Fußnoten und Marginalien müssen gemäß den Transkriptionsrichtlinien unter Umständen neu platziert werden (siehe Annotationsebene note).

Manuelle Transkription

Die manuelle Transkription wurde im txt-Format erstellt und in das xlsx-Format importiert. In der UTF-8-kodierten txt-Datei dienen die Leerzeichen als Tokentrenner.

Transkriptionsrichtlinien

  1. Transkribieren
    1. Allgemeine Richtlinien und Hinweise
    2. Lautzeichen
    3. Diakritika
    4. Satzzeichen
    5. Ligaturen
    6. Andere Schriftsysteme
    7. Liste von Zeichen
  2. Segmentieren
    1. Wort
    2. Zeilenumbrüche
    3. Abkürzungen
    4. Zahlen
    5. Satzzeichen
    6. Fußnoten
    7. Graphematik
  3. Textrepräsentation

Transkribieren

Allgemeine Richtlinien und Hinweise

  • Nicht mehr lesbare Zeichen oder Zeichenketten werden mit einem Unterstrich (_) markiert, unabhängig davon, wieviele Zeichen (in etwa) nicht mehr interpretiert werden können.
  • Handschriftliche Versalien, die offensichtlich zum Text gehören (KEINE Anmerkungen oder Kommentare von Lesern), werden mit annotiert.
Faksimilédipl
Abbildung eines Buchausschnitts, zeigt die Versalie A im Wort ABsinthiumABſinthium

Lautzeichen

Die Zeichen für “I” und “J” sind in Fraktur-Texten grafisch häufig nicht voneinander unterscheidbar. Konvention in RIDGES ist daher, das Zeichen in der dipl als J darzustellen und erst in der norm-Ebene das Zeichen individuell nach moderner Orthografie zu interpretieren.

Faksimilédipl
Abbildung eines Buchausschnitts, zeigt das Wort 'Ist' mit großem I, das einem großen J gleichtJſt

Das ſ wird beibehalten.

Faksimilédipl
Leſer
  • “Ʒ” (bzw. “ʒ”) wird nicht von “Z” (bzw. “z”) unterschieden. Beide Varianten werden als Z (bzw. z) transkribiert.
  • Unabhängig vom Erscheinungsbild der Zeichen “x”, “y” und “z” (z.B. “y” mit Trema, verzierte Varianten) werden die Zeichen “x”, “y” bzw. “z” als x, y, bzw. z transkribiert. Für Beispiele siehe Abschnitt Zeichen.

Diakritika

Alle Akzente werden beibehalten.

Faksimilédipl
Abbildung eines Buchausschnitts, zeigt das Wort 'immané' mit Akzent auf dem 'e'immané
Abbildung eines Buchausschnitts, zeigt das Wort 'Quòd' mit Akzent auf dem 'o'Quòd
Abbildung eines Buchausschnitts, zeigt das Wort 'vitâ' mit Akzent auf dem 'a'vitâ

Superskribiertes “e” und “o” werden beibehalten.

Faksimilédipl
Abbildung eines Buchausschnitts, zeigt das Wort 'genaͤdiger' mit superkribiertem 'e' über dem 'a'genaͤdiger
Abbildung eines Buchausschnitts, zeigt das Wort 'zů' mit Diakritikum auf dem 'u'

Unabhängig vom Erscheinungsbild des Punktes beim “i” und “ü” (z.B. schräg) wird in der Transkription nicht unterschieden.

Faksimilédipl
Abbildung eines Buchausschnitts, zeigt das Wort 'die' mit schrägem Strich über dem 'i'die
Abbildung eines Buchausschnitts, zeigt das Wort 'fünff' mit Schrägen Strichen über dem 'u'fünff

Alle horizonalen Striche über einem Zeichen werden als Tilde ( ̃ ) transkribiert.
Eine Tilde repräsentiert in der Regel einen Nasalstrich:

Faksimilédipl
Abbildung eines Buchausschnitts, zeigt das Wort 'om̃ia' mit Nasalstrich über dem 'm'om̃ia
Abbildung eines Buchausschnitts, zeigt die Wörter 'sciẽtiã meã' mit Nasalstrichen über dem ersten 'e' und den beiden 'a'ssciẽtiã meã
Abbildung eines Buchausschnitts, zeigt das Wort 'eı̃' mit Nasalstrich über dem 'i'eı̃
Abbildung eines Buchausschnitts, zeigt das Wort 'samẽ' mit Nasalstrich über dem 'e'ſamẽ
Abbildung eines Buchausschnitts, zeigt das Wort 'eynẽ' mit Nasalstrich über dem 'e'eynẽ
Abbildung eines Buchausschnitts, zeigt das Wort 'nẽlich' mit Nasalstrich über dem 'enẽlich
Abbildung eines Buchausschnitts, zeigt das Wort 'him̃el' mit Nasalstrich über dem 'm'him̃el
Abbildung eines Buchausschnitts, zeigt das Wort 'iñ' mit Nasalstrich über dem 'n'

Das Dicit-Zeichen (Abkürzung für “er”) wird in der dipl-Ebene auf zwei unterschiedliche Arten repräsentiert:

FaksimilédiplBeschreibung
Abbildung eines Buchausschnitts, zeigt das Wort 'oder' mit Dicit-ZeichenDicit-Repräsentation mit ð
Abbildung eines Buchausschnitts, zeigt das Wort 'v̉tzerẽ'v̉tzerẽDicit-Repräsentation mit ̉
Faksimilédipl
Abbildung eines Buchausschnitts, zeigt das Wort 'v̉tzerẽ'v̉tzerẽ
  • Folgendes Zeichen wird mit repräsentiert:
Faksimilédipl
Abbildung eines Buchausschnitts, zeigt das Wort 'deꝰ'deꝰ

Satzzeichen

Das Zeichen für morphologische Worttrennung oder Zeilenumbruch kann im Faksimilé ⸗ mit dargestellt sein und wird beibehalten.

Faksimilédipl
Abbildung eines Buchausschnitts, zeigt ein '⸗'Dañ⸗reiſz

Halbgeviertstriche (en dash, “–”) und Geviertstriche (em dash, “—”) werden als einfache Bindestriche (-) transkribiert.

Das “modifizierende Pluszeichen” (˖) wird beibehalten.

Faksimilédipl
˖

Das Absatzzeichen () wird in der dipl-Ebene beibehalten.

Faksimilédipl

Anführungszeichen werden übernommen.

Ligaturen

  • Vokalische Ligaturen werden beibehalten (æ und Æ; Œ und œ).
Faksimilédipl
hæc
  • Die ct-Ligatur wird nicht beibehalten.
Faksimilédipl
Abbildung eines Buchausschnitts, zeigt eine ct-Ligatur
Lactucis
  • Die Ligatur aus “v̈” und “v” wird aufgelöst: v̈v
Faksimilédipl
Abbildung eines Buchausschnitts, zeigt das Wort 'hev̈vſchrecken' mit einer Ligatur aus 'v̈' und 'v'hev̈vſchrecken
  • “ß” wird in Frakturtexten mit dem langen “ſ” und “z” als ſz transkribiert, da hier eine Unterscheidung zwischen der Ligatur und den beiden Einzelzeichen häufig schwierig ist. In Antiqua-Texten wird die Ligatur beibehalten.
Faksimilédipl
Abbildung eines Buchausschnitts, zeigt das Wort 'Uberfluſz' mit einer Ligatur aus 'ſ' und 'z'Uberfluſz
Faksimilédipl
Abbildung eines Buchausschnitts, zeigt das griechische Wort 'ἄκανθος' mit einer Ligatur aus 'o' und 'ς'
[Ligatur aus o und ς]
ἄκανθος
  • Die lateinische Abkürzung für “etc.” wird als & und c. transkribiert (2 Token).
Faksimilédipl
Abbildung eines Buchausschnitts, zeigt ein Zeichen für 'etc.'&
c.
[2 Token]
  • Das kaufmännische Und (&) wird beibehalten.
Faksimilédipl
&

Andere Schriftsysteme

Faksimilédipl
Abbildung eines Buchausschnitts, zeigt das griechische Wort 'ἄκανθος' mit einer Ligatur aus 'o' und 'ς'ἄκανθος

Typographische Besonderheiten

  • Oft werden die ersten Zeichen bzw. ersten Wörter (im Bsp. Von Weg⸗) einer neuen Seite bei einem Seitenumbruch in der vorhergehenden Seite in einem eigenen Absatz/in einer eigenen Zeile doppelt realisert (sog. Kustoden). Diese Zeichen bzw. das Wort wird nicht mit in das Transkript aufgenommen.

Segmentieren

  • Auch entgegen moderner Orthografieregeln wird analog zur Textgrundlage segmentiert.
Faksimilédipl
Abbildung eines Buchausschnitts, zeigt das Wort 'Spannen⸗lang'Spannen⸗lang
zuſetzen

Wort

  • Zusammengeschriebene klitisierte Elemente werden zusammengeschrieben transkribiert.
Faksimilédipl
Abbildung eines Buchausschnitts, zeigt das Wort 'ichs'ichs
  • Im Falle einer Worttrennung aufgrund von Zeilenumbrüchen, die keine overte, grafische Markierung wie “⸗” oder “-” beinhalten, werden formal die getrennten Elemente als jeweils ein Token in der dipl-Ebene repräsentiert.
Faksimilédipl
ge
nent
[2 Token]
  • Komposita, egal welcher Komplexität oder Bildungsweise, mit Gleichheitszeichen werden als ein Token realisiert.
Faksimilédipl
Artzney⸗Kunſt
[1 Token]

Zeilenumbrüche

  • Von Zeilenumbrüchen betroffene Elemente werden analog zur Primärquelle getrennt tokenisiert.
Faksimilédipl
allge⸗
meinen
[2 Token]
  • Von Zeilenumbrüchen betroffene Komposita werden analog zur Primärquelle getrennt tokenisiert, dabei bleibt die Kennzeichnung der morphologischen Worttrennung unberührt.
Faksimilédipl
Stab⸗
wurtz⸗Oel
[2 Token]

Abkürzungen

  • Abkürzungen werden analog zur Textgrundlage tokenisiert. Das heißt, auch Setzfehler oder Spatien, die nicht modernen Orthografieregeln entsprechen, werden realisiert.
Faksimilédipl
u.
ſ.
w.
[3 Token]
u
d.g.
[2 Token]

Zahlen

  • Punktsetzungen bei Ordinalzahlen werden mit der Ziffer als ein Token realisiert.
Faksimilédipl
I.
  • Die Faksimilia weisen oft Kardinalzahlen mit Interpunktion auf. Diese Punktsetzungen werden mit der jeweiligen Ziffer als Token realisiert. Ausnahmen bilden Zahlen, die mit einem satzbeenden Punkt auftreten. Hier wird wie gewohnt die Satzinterpunktion getrennt von der Kardinalzahl tokenisiert.
Faksimilédipl
Abbildung eines Buchausschnitts, zeigt 'I. Loth'I.
Loth
[2 Token]
Abbildung eines Buchausschnitts, zeigt '.IX.'.IX.
[1 Token]
  • Zeichenketten wie “5 %”, “5-12”, “800’” werden auf der dipl und clean als ein Token und in der norm als mehrere Token betrachtet, wenn sie im Scan keine Spatien erkennbar sind. Sind Spatien erkennbar, werden sie auch als verschiedene Token realisiert.
  • Bruchangaben werden mit / beibehalten. Dabei wird getrennt segmentiert, um gemischte Brüche transparent zu halten.
Faksimilédipl
1
1/2
[Das sind 2 Token]

Satzzeichen

  • Satzinterpunktionszeichen wie Kommata, Punkte, Virgeln oder Semikola werden als jeweils eigenständige Token realisiert.
Faksimilédipl
Abbildung eines Buchausschnitts, zeigt 'I. Loth'finden
.
[2 Token]
  • Höher dargestellte Punkte werden als normale Punkte repräsentiert, da nicht immer zweifelsfrei festgestellt werden kann, ob die Darstellung beabsichtigt ist oder nicht.
Faksimilédipl
Abbildung eines Buchausschnitts, zeigt 'I. Loth'keychen
.
[2 Token]
  • Manchmal handelt es sich nicht um Zeichen, sondern Tintenabdrücke im Faksimilé. Diese werden nicht repräsentiert.
Faksimilédipl
Abbildung eines Buchausschnitts, zeigt 'I. Loth'werden
.
[2 Token]

Fußnoten

  • Fußnotenreferenzierungen werden in dipl- und clean-Ebene als mehrere Token und in der norm-Ebene als ein Token realisiert.
Faksimilédipl
(
*
)
[3 Token]
*
*
)
[3 Token]

Graphematik

  • Text hinter (geschweiften) Klammern, wird nach dem umklammerten Textabschnitt eingefügt. 1
Faksimilédipl
Abbildung eines Buchausschnitts, zeigt Text hinter einer geschweiften KlammerWermuth
Wermuth
,
gemeiner
Wermuth
,
groſzer
ſ.
Wer⸗
muthbeifuſz
.

Textrepräsentation

  • Der Text der Marginalie wird immer am Anfang des jeweiligen Absatzes, in dem/neben dem sie realisiert ist aufgenommen, unabhängig davon, ob so mehrere Marginalien hintereinander oder/und auf der nachfolgenden Seite realisiert werden müssen. Sie unterbrechen somit den Fließtext.
  • Der Text der Fußnote wird immer am Ende des Absatzes, in dem sie eingepflegt ist aufgenommen, unabhängig davon, ob sich so die Fußnoten sammeln oder erst auf der nachfolgenden Seite realisiert werden müssten. Sie unterbrechen somit den Fließtext. Geht eine Fußnote über mehrere Seiten, wird sie zusammenhängend transkribiert.

Zeichen

FaksimilédiplBeschreibung
Abbildung eines Buchausschnitts, zeigt ein Zeichen, das ein 'x' istxDieses Zeichen ist ein x.
Abbildung eines Buchausschnitts, zeigt ein Zeichen, das ein 'y' istyDieses Zeichen ist ein y.
Abbildung eines Buchausschnitts, zeigt ein Zeichen, das ein 'z' istzDieses Zeichen ist ein z.
Abbildung eines Buchausschnitts, zeigt das '⊙'-SymbolDas Sonnensymbol wird beibehalten.
Abbildung eines Buchausschnitts, zeigt einen Senkrechtstrichdieſe
|
Senkrechtstriche werden mit | beibehalten.
Abbildung eines Buchausschnitts, zeigt ein 'Zwitter'-Symbol$Dieses Symbol wird als $ transkribiert. Es bedeutet wahrscheinlich “Zwitter” bzw. “zwitterig” (botanischer Fachbegriff).
Abbildung eines Buchausschnitts, zeigt das Tironische 'et'Dieses Zeichen wird als transkribiert. Es handelt sich hierbei um das Tironische “et”.
Abbildung eines Buchausschnitts, zeigt eine Ligatur aus 'v̈' und 'v'v̈vDies ist eine Ligatur aus “v̈” und “v”. Sie wird in der dipl-Ebene aufgelöst. Siehe Abschnitt Ligaturen.
Abbildung eines Buchausschnitts, zeigt ein Zeichen für 'etc.'&
c.
[2 Token]
Dies ist eine lateinische Abkürzung für “etc.” Sie wird als & und c. transkribiert (siehe Abschnitt Ligaturen).

Für Beispiele und Einzelfallentscheidungen siehe Übersicht.

Automatische Tokensierung

Die mit OCR erstellten Transkriptionen müssen noch tokenisiert werden, bevor sie nach Excel konvertiert werden müssen. Dafür nutzen wir das Bash-Script tokenize-ocr4all.sh im scripts Ordner und dem Tokenizer vom TreeTagger. Das Script wir in der Kommandozeile (unter Linux oder MacOS) aufgerufen und benötigt den Installationsordner vom TreeTagger und dem Ordner mit den Textdateien aus OCR4all (txt/RIDGES_Herbology/) als Argument.

./scripts/tokenize-ocr4all.sh TREETAGGER_ORDNER txt/RIDGES_Herbology/

Das Script ersetzt nach dem Ausführen alle Textdateien mit der Endung .txt mit Dateien im TreeTagger-Format und der Endung (.tt) im selben Ordner. Die Zeilen- und Seiteninformationen aus den Textdateien bleiben als lb bzw. pb Annotation erhalten.

Die Konvertierung der Dateien in txt/RIDGES_Herbology/ in das Excel-Format (im Ordner Excel/RIDGES_Herbology) erfolgt dann über eine Annatto-Workflowdatei.

annatto run tt2excel.toml

Dieser Schritt erstellt auch die automatische clean-Ebene.


  1. Zur Darstellung der geschweiften Klammer siehe Abschnitt figure.