Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

clean-Normalisierung

Die clean-Ebene enthält erste vollautomatisch erstellte Normalisierungen hinsichtlich Sonderzeichen und graphischer Strukturierungen. Sie wird automatisch beim Konvertieren von TreeTagger nach Excel erstellt. Alternativ kann die clean-Ebene für die bestehenden Excel-Dateien neu erstellt werden, indem man die Annatto-Workflowdatei reclean.toml ausführt

annatto run reclean.toml

Über diesen Konvertierungs-Schritt werden u.a. Ligaturen, die nach moderner Rechtschreibung nicht mehr verwendet werden, normalisiert. Graphische Markierungen der einzelnen Texte wie Zeilenumbrüche werden aufgelöst und Sonderzeichen einiger Fonts wie Fraktur auf die heutigen Schriftsätze übertragen. Für die Token, die Vokale mit Tilden enthalten, werden alle möglichen Formen dieser Token in der clean angegeben. Die verschiedenen Formen werden durch | getrennt (zum Beispiel: auſzwēdig wird zu auszwemdig|auszwendig).
In der clean-Ebene werden außerdem Wörter, die durch einen Zeilenumbruch getrennt und mit einem Bindeelement versehen sind, zusammengezogen. Beginnt das zweite Wort mit einem Großbuchstaben, wird dieser in der clean-Ebene in Kleinschreibung realisiert. Ist der komplette zweite Bestandteil in Großbuchstaben geschrieben, bleibt dies so bestehen (Gelb-Sucht wird zu Gelbsucht; MON- <lb> TANUM wird zu MONTANUM).

Trunkierte Elemente, die am Zeilenende stehen, werden bisher nicht als solche erkannt und daher automatisch mit dem ersten Element der folgenden Zeile zusammengezogen (Speiſz⸗und Nahrungs⸗Saffts wird zu Speiszund (sic!) Nahrungssaffts).

Für eine komplette Auflistung aller Ersetzungen, die für die Erstellung der clean-Ebene gemacht wurden, siehe die Readme zum Skript.

Richtlinien für die clean-Normalisierung

  1. Normalisieren
    1. Allgemeine Richtlinien und Hinweise
    2. Lautzeichen
    3. Diakritika
    4. Satzzeichen
    5. Ligaturen
    6. Griechische Schrift
  2. Segmentieren
    1. Wort
    2. Zeilenumbrüche
    3. Abkürzungen
    4. Zahlen
    5. Satzzeichen
    6. Fußnoten

Normalisieren

Allgemeine Richtlinien und Hinweise

FaksimilédiplcleanBeschreibung
_unknownBei nicht lesbaren Zeichen oder Zeichenketten ist durch die fehlende Transkription ist eine Normalisierung nicht mehr möglich. Dies wird mit dem Platzhalter-Tag unknown angezeigt.
Abbildung eines Buchausschnitts, zeigt die Versalie A im Wort ABsinthiumABſinthiumABsinthiumHandschriftliche Versalien, die offensichtlich zum Text gehören (KEINE Anmerkungen oder Kommentare von Lesern), werden in der dipl mit annotiert und in der clean übernommen.

Lautzeichen

FaksimilédiplcleanBeschreibung
Abbildung eines Buchausschnitts, zeigt das Wort 'Ist' mit großem I, das einem großen J gleichtJſtJstDie Zeichen für ‘I’ und ‘J’ sind in Fraktur-Texten grafisch häufig nicht voneinander unterscheidbar. In der clean-Ebene wird J beibehalten.
LeſerLeserDas lange “ſ” wird durch ein reguläres s ersetzt.

Diakritika

FaksimilédiplcleanBeschreibung
Abbildung eines Buchausschnitts, zeigt das Wort 'immané' mit Akzent auf dem 'e'
Abbildung eines Buchausschnitts, zeigt das Wort 'Quòd' mit Akzent auf dem 'o'
Abbildung eines Buchausschnitts, zeigt das Wort 'vitâ' mit Akzent auf dem 'a'
immané
Quòd
vitâ
immané
Quòd
vitâ
Alle Akzente werden beibehalten.
Abbildung eines Buchausschnitts, zeigt das Wort 'zů' mit Diakritikum auf dem 'u'zuSuperskribiertes “o” wird in der clean-Ebene nicht mehr realisiert und durch den zugrundeliegenden Vokal ersetzt.
Abbildung eines Buchausschnitts, zeigt das Wort 'genaͤdiger' mit superkribiertem 'e' über dem 'a'genaͤdigergenädigerVokalgrapheme mit superskribiertem “e” werden in der clean-Ebene in Umlaute des modernen Deutschen umgewandelt.
Abbildung eines Buchausschnitts, zeigt das Wort 'oder' mit Dicit-Zeichen
Abbildung eines Buchausschnitts, zeigt das Wort 'v̉tzerẽ'

v̉tzerẽ
oder
vertzeren
Das Dicit-Zeichen (ð oder ̉ ) wird in der clean automatisch mit er ersetzt
Abbildung eines Buchausschnitts, zeigt das Wort 'deꝰ'deꝰdeusDas ꝰ-Zeichen wird in der clean-Ebene durch us ersetzt.

Tilden werden entsprechend ihrer Funktion als Nasalstriche aufgelöst.1 Achtung: In der clean-Ebene wird der Strich automatisch als Nasalstrich interpretiert und nicht immer korrekt zwischen “m” und “n” unterschieden:2

Faksimilédiplclean
Abbildung eines Buchausschnitts, zeigt das Wort 'om̃ia' mit Nasalstrich über dem 'm'om̃iaomnia
Abbildung eines Buchausschnitts, zeigt die Wörter 'sciẽtiã meã' mit Nasalstrichen über dem ersten 'e' und den beiden 'a'ssciẽtiã meãscientiam meam
Abbildung eines Buchausschnitts, zeigt das Wort 'eı̃' mit Nasalstrich über dem 'i'eı̃ein
Abbildung eines Buchausschnitts, zeigt das Wort 'samẽ' mit Nasalstrich über dem 'e'ſamẽsamen
Abbildung eines Buchausschnitts, zeigt das Wort 'eynẽ' mit Nasalstrich über dem 'e'eynẽeynem
Abbildung eines Buchausschnitts, zeigt das Wort 'nẽlich' mit Nasalstrich über dem 'enẽlichnemlich
Abbildung eines Buchausschnitts, zeigt das Wort 'him̃el' mit Nasalstrich über dem 'm'him̃elhimmel
Abbildung eines Buchausschnitts, zeigt das Wort 'iñ' mit Nasalstrich über dem 'n'inn

Satzzeichen

FaksimilédiplcleanBeschreibung
Abbildung eines Buchausschnitts, zeigt ein '⸗'Dañ⸗reiſzDann-reiszDie morphologische Trennung durch “⸗” bleibt erhalten, wird jedoch mit einem regulären Bindestrich (-) ersetzt. Komposita, die in der dipl-Ebene mit einem ⸗ realisiert werden, behalten dieses Zeichen bei, um die allgemeine Suche nach Komposita in dieser Ebene zu ermöglichen. Für Erläuterungen zur rein grafischen Trennung, wie Zeilenumbrüchen, siehe Abschnitt Segmentieren.
˖:In der clean wird das “modifizierende Pluszeichen” (˖) zu : normalisiert.
Das Absatzzeichen () wird in dipl-, clean- und norm-Ebene übernommen.

Ligaturen

FaksimilédiplcleanBeschreibung
hæchaecDie Ligaturen æ und Æ werden aufgelöst. Das gleiche gilt ebenfalls für Œ und œ.
Abbildung eines Buchausschnitts, zeigt das Wort 'Uberfluſz' mit einer Ligatur aus 'ſ' und 'z'UberfluſzUberfluszDie “ß”-, bzw. “ſz”-Ligatur wird analog zu dipl aufgelöst: sz.
Abbildung eines Buchausschnitts, zeigt ein Zeichen für 'etc.'&
c.
&
c.
Folgendes beteutet “etc.”. Es wird als & und c. transkribiert (2 Token).
&&Das kaufmännische Und (&) wird übernommen.

Andere Schriftsysteme

Faksimilédiplclean
Abbildung eines Buchausschnitts, zeigt das griechische Wort 'ἄκανθος' mit einer Ligatur aus 'o' und 'ς'ἄκανθοςἄκανθος

Segmentieren

diplclean
Spannen⸗langSpannen-lang
zuſetzenzusetzen

Wort

diplcleanBeschreibung
ichsichsKlitika werden als ein Token realisiert.
ge
nent
[2 Token]
ge
nent
[2 Token]
Die Worttrennung ohne grafische Markierung ist nicht in jedem Fall transparent. Grafische Normalisierungen werden nicht vorgenommen.
Artzney⸗Kunſt [1 Token]Artzney-Kunst [1 Token]Die morphologische Trennung von Komposita durch “⸗” bleibt erhalten, wird jedoch mit einem regulären - ersetzt.

Zeilenumbrüche

FaksimilédiplcleanBeschreibung
allge⸗
meinen
[2 Token]
allgemeinen
[1 Token]
Wörter, die von Zeilenumbrüchen betroffen sind, werden in der clean-Ebene ohne den (Doppel-) Bindestrich, der diesen anzeigt, sowie in einer Spanne zusammengefasst realisiert. Die grafische Worttrennung wird somit aufgehoben.
Stab⸗
wurtz⸗Oel
[2 Token]
Stabwurtz-Oel
[1 Token]
Wenn ein Kompositum, das durch Gleichheitszeichen grundsätzlich getrennt wird, von einem Zeilenumbruch betroffen ist, so wird dieses Gleichheitszeichen in der clean-Ebene entfernt, das andere Gleichheitszeichen für die morphologische Trennung wird analog zum Abschnitt Wort mit einem Minus ersetzt. Das Kompositum wird in einer Spanne zusammengefasst wiedergegeben.

Abkürzungen

Abkürzungen werden in der clean-Ebene analog zur dipl-Ebene tokenisiert.

diplclean
u.
ſ.
w.
[3 Token]
u.
s.
w.
[3 Token]
u
d.g.
[2 Token]
u
d.g.
[2 Token]

Zahlen

Bei Zahlen werden in der clean-Ebene alle Konventionen der dipl-Ebene übernommen.

Satzzeichen

Für Satzzeichen werden in der clean-Ebene alle für die dipl-Ebene beschriebenen Konventionen übernommen.

Fußnoten

Für Fußnoten werden in der clean-Ebene alle für die dipl-Ebene beschriebenen Konventionen übernommen.

  • Der Text der Marginalie wird immer am Anfang des jeweiligen Absatzes, in dem/neben dem sie realisiert ist, unabhängig davon, ob so mehrere Marginalien hintereinander oder/und auf der nachfolgenden Seite realisiert werden müssen, in die dipl-Ebene/Transkription aufgenommen.
  • Der Text der Fußnote wird immer am Ende des Absatzes, in dem sie eingepflegt ist, unabhängig davon, ob sich so die Fußnoten sammeln oder erst auf der nachfolgenden Seite realisiert werden müssten, in die dipl-Ebene/Transkription aufgenommen. Geht eine Fußnote über mehrere Seiten, wird sie zusammenhängend transkribiert.
  • Nicht mehr lesbare Zeichen oder Zeichenketten werden mit einem Unterstrich (_) markiert, unabhängig davon, wieviele Zeichen (in etwa) nicht mehr interpretiert werden können. Zusätzlich wird in einem späteren Schritt die Stelle auf der Annotationsebene “unclear” gekennzeichnet.
  • Halbgeviertstriche (en dash, “–”) und Geviertstriche (em dash, “—”) werden als einfache Bindestriche (-) transkribiert, da in älteren Drucken eine Unterscheidung oft schwierig ist.

  1. Nachweis für das Beispiel: Reichmann & Wegera 1993: 31.

  2. Gegebenenfalls in der norm ausgleichen.