Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

Annotation

Es gibt im RIDGES-Korpus aktuell manuelle und mit verschiedenen Tools automatisch erstellte Annotationen sowie Metadaten, die die Eigenschaften der Dateien beschreiben.

Zu linguistischen Annotationen werden Interpretationen der Token aus grammatischer Perspektive gezählt. Das RIDGES-Korpus enthält als linguistische Annotationen ein POS-Tagging für Wortarten, Lemmatisierung, die Markierung von fremdsprachlichem Material und die Kennzeichnung von Abkürzungen. Im Druck nicht leserliche und daher nicht weiter analysierbare Token werden auf der Ebene unclear annotiert.

Strukturelle Annotationen kodieren Informationen zum Layout und zur Textstruktur. Dazu zählen die Spaltenzugehörigkeit, Überschriften, Abbildungen und deren Platzierung, Schriftbild und Markup, Auszeichnungen von Fußnoten, Marginalien und Bildunterschriften, Zitaten und Zitatmarkierungen sowie Zugehörigkeit der Token zu Zeilen, Seiten und die Kennzeichnung von Seitenzahlen.

Inhaltliche Annotationen beinhalten nicht-sprachliche Informationen zu Token, Spannen und Dokumenten. Annotiert werden Personennamen, Titel, die Art der Referenz auf Autor:innen und Leser:innen. Inhaltliche Informationen zu Dokumenten werden in den Metadaten annotiert.

Darüberhinaus gibt es Annotationsebenen, die nur in älteren Versionen des Korpus vorhanden sind.

Für jede Version des Korpus und jeden darin enthaltenen Text ist aufgelistet, welche Annotationen vorhanden sind.