clean-Normalisierung

Die clean-Ebene enthält erste vollautomatisch erstellte Normalisierungen hinsichtlich Sonderzeichen und graphischer Strukturierungen. Sie wird automatisch beim Konvertieren von TreeTagger nach Excel erstellt. Alternativ kann die clean-Ebene für die bestehenden Excel-Dateien neu erstellt werden, indem man die Annatto-Workflowdatei reclean.toml ausführt

annatto run reclean.toml

Über diesen Konvertierungs-Schritt werden u.a. Ligaturen, die nach moderner Rechtschreibung nicht mehr verwendet werden, normalisiert. Graphische Markierungen der einzelnen Texte wie Zeilenumbrüche werden aufgelöst und Sonderzeichen einiger Fonts wie Fraktur auf die heutigen Schriftsätze übertragen. Für die Token, die Vokale mit Tilden enthalten, werden alle möglichen Formen dieser Token in der clean angegeben. Die verschiedenen Formen werden durch | getrennt (zum Beispiel: auſzwēdig wird zu auszwemdig|auszwendig).
In der clean-Ebene werden außerdem Wörter, die durch einen Zeilenumbruch getrennt und mit einem Bindeelement versehen sind, zusammengezogen. Beginnt das zweite Wort mit einem Großbuchstaben, wird dieser in der clean-Ebene in Kleinschreibung realisiert. Ist der komplette zweite Bestandteil in Großbuchstaben geschrieben, bleibt dies so bestehen (Gelb-Sucht wird zu Gelbsucht; MON- <lb> TANUM wird zu MONTANUM).

Trunkierte Elemente, die am Zeilenende stehen, werden bisher nicht als solche erkannt und daher automatisch mit dem ersten Element der folgenden Zeile zusammengezogen (Speiſz⸗und Nahrungs⸗Saffts wird zu Speiszund (sic!) Nahrungssaffts).

Für eine komplette Auflistung aller Ersetzungen, die für die Erstellung der clean-Ebene gemacht wurden, siehe die Readme zum Skript.

Normalisieren

Allgemeine Richtlinien und Hinweise

Faksimilé	dipl	clean	Beschreibung
	`_`	`unknown`	Bei nicht lesbaren Zeichen oder Zeichenketten ist durch die fehlende Transkription ist eine Normalisierung nicht mehr möglich. Dies wird mit dem Platzhalter-Tag `unknown` angezeigt.
	`ABſinthium`	`ABsinthium`	Handschriftliche Versalien, die offensichtlich zum Text gehören (KEINE Anmerkungen oder Kommentare von Lesern), werden in der dipl mit annotiert und in der clean übernommen.

Lautzeichen

Faksimilé	dipl	clean	Beschreibung
	`Jſt`	`Jst`	Die Zeichen für ‘I’ und ‘J’ sind in Fraktur-Texten grafisch häufig nicht voneinander unterscheidbar. In der clean-Ebene wird `J` beibehalten.
	`Leſer`	`Leser`	Das lange “ſ” wird durch ein reguläres `s` ersetzt.

Diakritika

dipl	clean	Beschreibung
`immané` `Quòd` `vitâ`	`immané` `Quòd` `vitâ`	Alle Akzente werden beibehalten.
`zů`	`zu`	Superskribiertes “o” wird in der clean-Ebene nicht mehr realisiert und durch den zugrundeliegenden Vokal ersetzt.
`genaͤdiger`	`genädiger`	Vokalgrapheme mit superskribiertem “e” werden in der clean-Ebene in Umlaute des modernen Deutschen umgewandelt.
`oð` `v̉tzerẽ`	`oder` `vertzeren`	Das Dicit-Zeichen (ð oder ̉ ) wird in der clean automatisch mit `er` ersetzt
`deꝰ`	`deus`	Das ꝰ-Zeichen wird in der clean-Ebene durch `us` ersetzt.

Tilden werden entsprechend ihrer Funktion als Nasalstriche aufgelöst.¹ Achtung: In der clean-Ebene wird der Strich automatisch als Nasalstrich interpretiert und nicht immer korrekt zwischen “m” und “n” unterschieden:²

Faksimilé	dipl	clean
	`om̃ia`	`omnia`
	`sciẽtiã meã`	`scientiam meam`
	`eı̃`	`ein`
	`ſamẽ`	`samen`
	`eynẽ`	`eynem`
	`nẽlich`	`nemlich`
	`him̃el`	`himmel`
	`iñ`	`inn`

Satzzeichen

dipl	clean	Beschreibung
`Dañ⸗reiſz`	`Dann-reisz`	Die morphologische Trennung durch “⸗” bleibt erhalten, wird jedoch mit einem regulären Bindestrich (`-`) ersetzt. Komposita, die in der dipl-Ebene mit einem ⸗ realisiert werden, behalten dieses Zeichen bei, um die allgemeine Suche nach Komposita in dieser Ebene zu ermöglichen. Für Erläuterungen zur rein grafischen Trennung, wie Zeilenumbrüchen, siehe Abschnitt Segmentieren.
`˖`	`:`	In der clean wird das “modifizierende Pluszeichen” (˖) zu `:` normalisiert.
`¶`	`¶`	Das Absatzzeichen (`¶`) wird in dipl-, clean- und norm-Ebene übernommen.

Ligaturen

dipl	clean	Beschreibung
`hæc`	`haec`	Die Ligaturen `æ` und `Æ` werden aufgelöst. Das gleiche gilt ebenfalls für `Œ` und `œ`.
`Uberfluſz`	`Uberflusz`	Die “ß”-, bzw. “ſz”-Ligatur wird analog zu dipl aufgelöst: `sz`.
`&` `c.`	`&` `c.`	Folgendes beteutet “etc.”. Es wird als `&` und `c.` transkribiert (2 Token).
`&`	`&`	Das kaufmännische Und (`&`) wird übernommen.

Andere Schriftsysteme

Sprachliches Material mit anderen Schriftsystemen (z.B. Griechisch) wird in clean und norm nicht geändert.
http://www.unicode.org/charts/PDF/U0370.pdf
sowie
http://www.unicode.org/charts/PDF/U0370.pdf

Faksimilé	dipl	clean
	`ἄκανθος`	`ἄκανθος`

Segmentieren

dipl	clean
`Spannen⸗lang`	`Spannen-lang`
`zuſetzen`	`zusetzen`

Wort

dipl	clean	Beschreibung
`ichs`	`ichs`	Klitika werden als ein Token realisiert.
`ge` `nent` [2 Token]	`ge` `nent` [2 Token]	Die Worttrennung ohne grafische Markierung ist nicht in jedem Fall transparent. Grafische Normalisierungen werden nicht vorgenommen.
`Artzney⸗Kunſt` [1 Token]	`Artzney-Kunst` [1 Token]	Die morphologische Trennung von Komposita durch “⸗” bleibt erhalten, wird jedoch mit einem regulären `-` ersetzt.

Zeilenumbrüche

Faksimilé	dipl	clean	Beschreibung
	`allge⸗` `meinen` [2 Token]	`allgemeinen` [1 Token]	Wörter, die von Zeilenumbrüchen betroffen sind, werden in der clean-Ebene ohne den (Doppel-) Bindestrich, der diesen anzeigt, sowie in einer Spanne zusammengefasst realisiert. Die grafische Worttrennung wird somit aufgehoben.
	`Stab⸗` `wurtz⸗Oel` [2 Token]	`Stabwurtz-Oel` [1 Token]	Wenn ein Kompositum, das durch Gleichheitszeichen grundsätzlich getrennt wird, von einem Zeilenumbruch betroffen ist, so wird dieses Gleichheitszeichen in der clean-Ebene entfernt, das andere Gleichheitszeichen für die morphologische Trennung wird analog zum Abschnitt Wort mit einem Minus ersetzt. Das Kompositum wird in einer Spanne zusammengefasst wiedergegeben.

Abkürzungen

Abkürzungen werden in der clean-Ebene analog zur dipl-Ebene tokenisiert.

dipl	clean
`u.` `ſ.` `w.` [3 Token]	`u.` `s.` `w.` [3 Token]
`u` `d.g.` [2 Token]	`u` `d.g.` [2 Token]

Der Text der Marginalie wird immer am Anfang des jeweiligen Absatzes, in dem/neben dem sie realisiert ist, unabhängig davon, ob so mehrere Marginalien hintereinander oder/und auf der nachfolgenden Seite realisiert werden müssen, in die dipl-Ebene/Transkription aufgenommen.
Der Text der Fußnote wird immer am Ende des Absatzes, in dem sie eingepflegt ist, unabhängig davon, ob sich so die Fußnoten sammeln oder erst auf der nachfolgenden Seite realisiert werden müssten, in die dipl-Ebene/Transkription aufgenommen. Geht eine Fußnote über mehrere Seiten, wird sie zusammenhängend transkribiert.
Nicht mehr lesbare Zeichen oder Zeichenketten werden mit einem Unterstrich (_) markiert, unabhängig davon, wieviele Zeichen (in etwa) nicht mehr interpretiert werden können. Zusätzlich wird in einem späteren Schritt die Stelle auf der Annotationsebene “unclear” gekennzeichnet.
Halbgeviertstriche (en dash, “–”) und Geviertstriche (em dash, “—”) werden als einfache Bindestriche (-) transkribiert, da in älteren Drucken eine Unterscheidung oft schwierig ist.

Nachweis für das Beispiel: Reichmann & Wegera 1993: 31.
↩
Gegebenenfalls in der norm ausgleichen. ↩

Handbuch RIDGES Herbology Korpus

clean-Normalisierung

Richtlinien für die clean-Normalisierung

Normalisieren

Allgemeine Richtlinien und Hinweise

Lautzeichen

Diakritika

Satzzeichen

Ligaturen

Andere Schriftsysteme

Segmentieren

Wort

Zeilenumbrüche

Abkürzungen

Zahlen

Satzzeichen

Fußnoten

Keyboard shortcuts

Handbuch RIDGES Herbology Korpus