Automatische Annotationen
Automatisch annotiert werden sowohl linguistische als auch strukturelle Annotationen.
Die Annotationen werden über Skripte im scripts-Ordner automatisch erstellt.
tokenize-ocr4all.shtokenisiert die PageXML-Daten aus OCR4all und fügt strukturelle Annotationen hinhzutag-all.shfügt die Annotationen zu den linguistischen Eigenschaften hinzu.
Annotationsebenen
Annotationen zu linguistischen Eigenschaften
pos
Wortarten-Annotation (pos - part of speech) nach dem Stuttgart-Tübingen-Tagset (STTS)
Exponent
Spannenannotation je norm-Token
Werte
Tags nach dem STTS: https://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/germantagsets/
lemma
Zuordnung aller Wortformen zu abstraktem Lemma mit Lemmanamen mit dem Treetagger: http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
Exponent
Spannenannotation je norm-Token
Werte
jeweiliges Lemma
Strukturelle Annotation
Unter strukturellen Annotationen werden alle Annotationen zusammengefasst, die Aussagen über die grafische Strukturierung der Textgrundlage liefern. Dazu zählen Kennzeichnungen der Zeilen- und Seitenumbrüche, Seitenzahlen, unkenntliche/nicht lesbare Zeichen und Marginalien sowie Fußnoten. Strukturelle Annotationen werden auf Grundlage der diplomatischen Ebene vergeben (dipl-Ebene). So ist die Tokenisierung in der dipl-Ebene Vorlage für die weiteren, strukturellen Annotationen.
lb
Markierung einer ganzen Zeile.
Wird automatisch beim Ausführen des Skripts scripts/tokenize-ocr4all.sh erstellt.
Exponent
Spannenannotation über mehrere dipl-Token
Werte
| Annotationswert | Beschreibung |
|---|---|
lb | Markierung pro ganzer Zeile |
pb
Markierung einer ganzen Seite.
Wird automatisch beim Ausführen des Skripts scripts/tokenize-ocr4all.sh erstellt.
Exponent
Spannenannotation über mehrere dipl-Token
Werte
| Annotationswert | Beschreibung |
|---|---|
pb | Markierung pro ganzer Seite |
pb_n
Markierung der Nummerierung einer Seite.
Wird automatisch beim Ausführen des Skripts scripts/tokenize-ocr4all.sh erstellt und vorausgefüllt.
Dabei wird der Wert aus den OCR4all-Daten übernommen und startet typischerweise mit “0001”, “0002”, etc.
Daher muss der Wert manuell nachbearbeitet werden.
Exponent
Spannenannotation über mehrere dipl-Token
Werte
| Annotationswert | Beschreibung |
|---|---|
| numerischer Wert | Seitenzahl als lateinische oder römische Zahlenangabe |
Richtlinien und Hinweise
- wird aus dem Faksimilé übernommen
- ist keine Seitenangabe vorhanden, wird auch keine eingetragen