Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

Automatische Annotationen

Automatisch annotiert werden sowohl linguistische als auch strukturelle Annotationen.

Die Annotationen werden über Skripte im scripts-Ordner automatisch erstellt.

  • tokenize-ocr4all.sh tokenisiert die PageXML-Daten aus OCR4all und fügt strukturelle Annotationen hinhzu
  • tag-all.sh fügt die Annotationen zu den linguistischen Eigenschaften hinzu.

Annotationsebenen


Annotationen zu linguistischen Eigenschaften


pos

Wortarten-Annotation (pos - part of speech) nach dem Stuttgart-Tübingen-Tagset (STTS)

Exponent

Spannenannotation je norm-Token

Werte

Tags nach dem STTS: https://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/germantagsets/


lemma

Zuordnung aller Wortformen zu abstraktem Lemma mit Lemmanamen mit dem Treetagger: http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/

Exponent

Spannenannotation je norm-Token

Werte

jeweiliges Lemma



Strukturelle Annotation

Unter strukturellen Annotationen werden alle Annotationen zusammengefasst, die Aussagen über die grafische Strukturierung der Textgrundlage liefern. Dazu zählen Kennzeichnungen der Zeilen- und Seitenumbrüche, Seitenzahlen, unkenntliche/nicht lesbare Zeichen und Marginalien sowie Fußnoten. Strukturelle Annotationen werden auf Grundlage der diplomatischen Ebene vergeben (dipl-Ebene). So ist die Tokenisierung in der dipl-Ebene Vorlage für die weiteren, strukturellen Annotationen.


lb

Markierung einer ganzen Zeile.

Wird automatisch beim Ausführen des Skripts scripts/tokenize-ocr4all.sh erstellt.

Exponent

Spannenannotation über mehrere dipl-Token

Werte

AnnotationswertBeschreibung
lbMarkierung pro ganzer Zeile

pb

Markierung einer ganzen Seite.

Wird automatisch beim Ausführen des Skripts scripts/tokenize-ocr4all.sh erstellt.

Exponent

Spannenannotation über mehrere dipl-Token

Werte

AnnotationswertBeschreibung
pbMarkierung pro ganzer Seite

pb_n

Markierung der Nummerierung einer Seite.

Wird automatisch beim Ausführen des Skripts scripts/tokenize-ocr4all.sh erstellt und vorausgefüllt. Dabei wird der Wert aus den OCR4all-Daten übernommen und startet typischerweise mit “0001”, “0002”, etc.

Daher muss der Wert manuell nachbearbeitet werden.

Exponent

Spannenannotation über mehrere dipl-Token

Werte

AnnotationswertBeschreibung
numerischer WertSeitenzahl als lateinische oder römische Zahlenangabe

Richtlinien und Hinweise

  • wird aus dem Faksimilé übernommen
  • ist keine Seitenangabe vorhanden, wird auch keine eingetragen