Transkription und Normalisierung: Übersicht

Nachfolgend werden die Richtlinien zur Transkription und Normalisierung im Einzelnen gegenübergestellt. Allgemein für jede Segmentierungsebene sowie Annotationsebene gilt, dass keine Leerzeilen oder Leerzeichen enthalten sein dürfen. Dazu wird für jeden Fall ein Beispiel gegeben, die konkrete Regel beschrieben und die weiteren Normalisierungsschritte gegenübergestellt (dipl – clean – norm). Die Richtlinien sind nach Schwerpunkten gruppiert:
(1) Zeichensetzung/Sonderzeichen
(2) Segmentierung/Tokenisierung
(3) Interpunktion.

Transkribieren
Tokenisieren
Normalisieren

Sonderzeichen wie zum Beispiel das “ſ” werden mit Hilfe von Unicodes in der dipl-Ebene realisiert. Eine Liste der zu verwendenden Unicodes ist angefügt.

Nachweis für das Beispiel: Reichmann & Wegera 1993: 31.

Fußnoten und Marginalien

Der Text der Marginalie wird immer am Anfang des jeweiligen Absatzes, in dem/neben dem sie realisiert ist, unabhängig davon, ob so mehrere Marginalien hintereinander oder/und auf der nachfolgenden Seite realisiert werden müssen, in die dipl-Ebene/Transkription aufgenommen.
Der Text der Fußnote wird immer am Ende des Absatzes, in dem sie eingepflegt ist, unabhängig davon, ob sich so die Fußnoten sammeln oder erst auf der nachfolgenden Seite realisiert werden müssten, in die dipl-Ebene/Transkription aufgenommen.

Zeichentabelle

Nr.	dipl-Ebene	clean-Ebene	norm-Ebene
	Transkript des Faksimiles.	Wird automatisch durch ein Python-Skript (clean-skript.py) erstellt. Dieses ersetzt alle heute unüblichen Sonderzeichen durch heute verwendete Entsprechungen.	Erfolgt manuell im .xlsx Format nach der modernen neuen Rechtschreibung. Tipp: Kopieren Sie sich die clean-Ebene und verändern Sie dann die entsprechenden Stellen!
1.0	Nicht mehr lesbare Zeichen oder Zeichenketten werden mit einem Unterstrich markiert, unabhängig davon, wieviele Zeichen (in etwa) nicht mehr interpretiert werden können.	Durch die fehlende Transkription ist eine Normalisierung nicht mehr möglich. Dies wird mit dem Platzhalter-Tag "unknown" angezeigt.	Durch die fehlende Transkription ist eine Normalisierung nicht mehr möglich. Dies wird mit dem Platzhalter-Tag "unknown" angezeigt.
	dipl	clean	norm
	`_`	`unknown`	`unknown`
	Handschriftliche Versalien, die offensichtlich zum Text gehören (KEINE Anmerkungen oder Kommentare von Lesern), werden mit annotiert.
	dipl	clean	norm
	`ABſinthium`	`ABsinthium`	`ABsinthium`
1.1	Die Zeichen für 'I' und 'J' sind in Fraktur-Texten grafisch in der Regel nicht voneinander unterscheidbar. Konvention in RIDGES ist daher, das Zeichen in der dipl als `J` darzustellen und erst in der norm-Ebene das Zeichen individuell nach moderner Orthografie zu interpretieren.	Wie in der dipl-Ebene.	Anpassung an moderne Orthografie.
	dipl	clean	norm
	`Jſt`	`Jst`	`Ist`
1.2	Das `ſ` wird übernommen.	Das lange "ſ" wird durch ein reguläres `s` ersetzt.
	dipl	clean	norm
	`Leſer`	`Leser`	`Leser`
	Dies ist ein `x`
	dipl	clean	norm
	`x`	`x`	`x`
	Das Zeichen Ʒ (bzw. ʒ) wird in der dipl-Ebene nicht von Z (bzw. z) unterschieden. Beide Varianten werden als `Z` (bzw. `z`) transkribiert.	Wie in der dipl-Ebene.
	dipl	clean	norm
	Dies ist ein `z`	`z`	`z`
	In manchen Drucken sieht das Zeichen y etwas anders aus; es wird aber als "normales" `y` transkribiert.
	dipl	clean	norm
	Dies ist ein `y`	`y`	`y`
1.3	Alle Akzente werden übernommen.	Alle Akzente werden übernommen.	Alle Akzente werden übernommen.
	dipl	clean	norm
	`immané`	`immané`	`immané`
	`Quòd`	`Quòd`	`Quòd`
	`vitâ`	`vitâ`	`vitâ`
	Dieses Zeichen wirdübernommen.	Dieses diakritische Zeichen wird in der clean-Ebene nicht mehr realisiert und durch den zugrundeliegenden Vokal ersetzt.
	dipl	clean	norm
	`zů`	`zu`	`zu`
	Umlaute mit superskribiertem "e" werden übernommen.	Umlaute mit superskribiertem "e" werden wie moderne Umlaute des Deutschen realisiert.
	dipl	clean	norm
	`genaͤdiger`	`genädiger`	`gnädiger`
	'í' mit schrägem Strich wird nicht vom 'i' mit Punkt unterschieden. Beide Varianten werden als `i` transkribiert.
	dipl	clean	norm
	`die`	`die`	`die`
	Das "ű" mit schrägen Strichen wird nicht nicht vom ü mit Punkten unterschieden. Beide Varianten werden als `ü` transkribiert.
	dipl	clean	norm
	`fünff`	`fünff`	`fünf`
	Alle horizonalen Striche über einem Zeichen werden als Tilde ( `̃̃` ) interpretiert. Eine Tilde kann stehen für: ausgelassene Nasale, sog. Nasalstrich	Tilden werden entsprechend ihrer Funktion umgesetzt. Die kann u. a. aus Reichmann & Wegera (1993) entnommen werden.¹ Achtung: In der clean-Ebene wird der Strich automatisch als Nasalstrich interpretiert. Gegebenenfalls in der norm ausgleichen.	Gegebenenfalls in der clean-Ebene eingefügte Nasale anders umsetzen.
	dipl	clean	norm
	`om̃ia`	`omnia`	`omnia`
	`sciẽtiã meã`	`scientiam meam`	`scientiam meam`
	`eı̃`	`ein`	`ein`
	`samẽ`	`samen`	`Samen`
	`einẽ`	`eynem`	`einem`
	`nẽlich`	`nemlich`	`nämlich`
	Verdopplung eines Buchstabens
	dipl	clean	norm
	`him̃el`	`himmel`	`Himmel`
	`iñ`	`inn`	`in`
	Das Dicit-Zeichen (Abkürzung für "der") wird in der dipl-Ebene mit `ð` übernommen	Es wird in der clean automatisch mit "der" ersetzt	In der norm auch.
	dipl	clean	norm
	`oð`	`oder`	`oder`
	Dieses Zeichen wird mit `ꝰ` repräsentiert.	Ersetzung durch `us`	Ersetzung durch `us`
	dipl	clean	norm
	`deꝰ`	`deus`	`deus`
		Ersetzung durch `er`	Ersetzung durch `er`
	dipl	clean	norm
	`v̉tzerẽ`	`vertzeren`	`verzehren`
1.4	Das Zeichen für morphologische Worttrennung (oder Zeilenumbruch) wird mit `⸗` übernommen.	Die morphologische Trennung durch "⸗" bleibt erhalten, wird jedoch mit einem regulären `-` ersetzt. Komposita, die in der dipl-Ebene mit einem `⸗` realisiert werden, behalten dieses Zeichen bei, um die allgemeine Suche nach Komposita in dieser Ebene zu ermöglichen. Für Erläuterungen zur rein grafischen Trennung, wie Zeilenumbrüchen, siehe Nummer 2.1.	Gleichheitszeichen, die Kompositabildung anzeigen, werden durch Minuszeichen (`-`) ersetzt oder das Kompositum wird analog zur modernen Orthografie zusammengeschrieben (Grundlage hierfür ist der aktuelle Stand des Dudens).
	dipl	clean	norm
	`Dañ⸗reiſz`	`Dann-reisz`	`Tannenreis`
	Halbgeviertstriche (en dash, "–") und Geviertstriche (em dash, "—") werden als einfache Bindestriche (`-`) transkribiert.
	dipl	clean	norm
	`-`	`-`	`-`
	Das "modifizierende Pluszeichen" (`˖`) wird übernommen.	In der clean wird das Zeichen zu `:` normalisiert.	In der norm wird das Zeichen zu `:` normalisiert.
	dipl	clean	norm
	`˖`	`:`	`:`
	Das Absatzzeichen (`¶`) wird in dipl-, clean- und norm-Ebene übernommen.
	dipl	clean	norm
	`¶`	`¶`	`¶`
1.5	Bruchangaben werden mit `/` übernommen. Dabei wird getrennt segmentiert, um gemischte Brüche transparent zu halten.	Bruchangaben werden mit `/` übernommen. Dabei wird getrennt segmentiert, um gemischte Brüche transparent zu halten.	Bruchangaben werden mit `/` übernommen. Dabei wird getrennt segmentiert, um gemischte Brüche transparent zu halten.
	dipl	clean	norm
	`1`	`1`	`1`
	`1/2`	`1/2`	`1/2`
	Dieses Symbol wird übernommen.	Dieses Symbol wird übernommen.	Dieses Symbol wird übernommen.
	dipl	clean	norm
	`⊙`	`⊙`	`⊙`
	Senkrechtstriche werden mit `\|` übernommen.	Senkrechtstriche werden übernommen.	Senkrechtstriche werden übernommen.
	dipl	clean	norm
	`dieſe`	`diese`	`diese`
	`\|`	`\|`	`\|`
	Dieses Symbol wird als `$` transkribiert. Es bedeutet wahrscheinlich "Zwitter" bzw. "zwitterig".	Die als Platzhalter dienenden Dollarzeichen werden übernommen.	Dollarzeichen werden übernommen. In der Ebene "comment" kann ergänzt werden, dass das Zeichen vermutlich "Zwitter" oder "zwitterig" bedeutet.
	dipl	clean	norm
	`$`	`$`	`$`
	Dieses Zeichen wird als `⁊` transkribiert. Es handelt sich hierbei um das Tironische "et".
	dipl	clean	norm
	`⁊`	`et`	`et`
1.6	Die Ligaturen `æ` und `Æ` werden übernommen. Das gleiche gilt ebenfalls für `Œ` und `œ`	Die Ligatur wird aufgelöst.
	dipl	clean	norm
	`hæc`	`haec`	`haec`
	Die ct-Ligatur wird nicht übernommen.	Die ct-Ligatur wird nicht übernommen.	Die ct-Ligatur wird nicht übernommen.
	dipl	clean	norm
	`Lactucis`	`Lactucis`	`Lactucis`
	Dies ist eine Ligatur aus v̈ und v. Die Ligatur wird aufgelöst: `v̈v`	`v̈v`
	dipl	clean	norm
	`hev̈vſchrecken`	`hev̈vschrecken`	`Heuschrecken`
	Die ſz-Ligatur wird mit dem langen "ſ" und "z" übernommen: `ſz`	Die Ligatur wird analog zu dipl aufgelöst: `sz`	Nach modernen Orthografieregeln wird für "sz" das `ß` verwendet.
	dipl	clean	norm
	`Uberfluſz`	`Uberflusz`	`Überfluss`
	Griechische Ligaturen werden nicht abgebildet, sondern bereits in der dipl aufgelöst: Ligatur aus o und ς Als Hilfe: https://de.wikipedia.org/wiki/Griechisches_Alphabet#/media/File:Greek_alphabet_ligatures.jpg
	dipl	clean	norm
	`ἄκανθος`	`ἄκανθος`	`ἄκανθος`
	Dies beteutet "etc."
	dipl	clean	norm
	`&`	`&`	`etc.`
	`c.`	`c.`	`etc.`
	Das kaufmännische Und (`&`) wird übernommen.	Das kaufmännische Und (`&`) wird übernommen.	Das kaufmännische Und (`&`) wird übernommen.
	dipl	clean	norm
	`&`	`&`	`&`
1.7	Sprachliches Material mit anderen Schriftsystemen (z.B. Griechisch) wird in clean und norm nicht geändert. http://www.unicode.org/charts/PDF/U0370.pdf sowie http://www.unicode.org/charts/PDF/U0370.pdf
	dipl	clean	norm
	`ἄκανθος`	`ἄκανθος`	`ἄκανθος`
1.8	Oft werden die ersten Zeichen bzw. ersten Wörter (im Bsp. Von Weg⸗) einer neuen Seite bei einem Seitenumbruch in der vorhergehenden Seite in einem eigenen Absatz/in einer eigenen Zeile doppelt realisert (sog. Kustoden). Diese Zeichen bzw. das Wort wird nicht mit in das Transkript aufgenommen.

2	Auch entgegen moderner Orthografieregeln wird analog zur Textgrundlage tokenisiert.		Wortbildung und Großschreibung, die nicht der modernen Orthografieregeln entsprechen, werden angeglichen.
	dipl	clean	norm
	`Spannen⸗lang`	`Spannen-lang`	`spannenlang`
2.1	Klitisierte Elemente können zusammengeschrieben (z.B. ichs, bedarfs, aufs) oder apostrophiert dargesetllt sein (z.B. ich's, bedarf's, auf's). Klitisiert werden schwach betonte Morpheme. Z.B.: Formen des Personalpronomens, unbestimmter oder bestimmter Artikel	Klitika werden als ein Token realisiert.	Klitika werden in dieser Ebene aufgelöst. Dazu wird die Tokenisierung verändert, indem aus einem Token in dipl (oder clean) zwei Token gemacht werden!.
	dipl	clean	norm
	`ichs`	`ichs`	`ich`
	`ichs`	`ichs`	`es`
	Auch entgegen moderner Orthografieregeln wird analog zur Textgrundlage tokenisiert.		Getrennt- und Zusammenschreibung wird nach modernen Orthografieregeln angepasst. Dazu wird die Tokenisierung verändert, indem aus einem Token in der dipl-Ebene (oder clean) zwei Token in der norm-Ebene gemacht werden!
	dipl	clean	norm
	`zuſetzen`	`zusetzen`	`zu`
	`zuſetzen`	`zusetzen`	`setzen`
	Im Falle einer Worttrennung aufgrund von Zeilenumbrüchen, die keine overte, grafische Markierung wie "⸗" oder "-" beinhalten, werden formal die getrennten Elemente als jeweils ein Token in der dipl-Ebene betrachtet. Auch entgegen moderner Orthografieregeln wird analog zur Textgrundlage tokenisiert.	Die Worttrennung ohne grafische Markierung ist nicht in jedem Fall transparent. Grafische Normalisierungen werden nicht vorgenommen.	Diese Art der Worttrennung, wenn sie transparent ist, wird nach modernen Orthografieregeln normalisiert und die grafische Trennung aufgehoben.
	dipl	clean	norm
	`ge`	`ge`	`genannt`
	`nent`	`nent`	`genannt`
	Komposita, egal welcher Komplexität oder Bildungsweise, mit Gleichheitszeichen werden als ein Token realisiert.	Die morphologische Trennung durch "⸗" bleibt erhalten, wird jedoch mit einem regulären "-" ersetzt.	Gleichheitszeichen, die Kompositabildung anzeigen, werden durch Minuszeichen ersetzt oder das Kompositum wird analog zur modernen Orthografie zusammengeschrieben (Grundlage hierfür bildet die aktuelle Ausgabe des Dudens.).
	dipl	clean	norm
	`Artzney⸗Kunſt`	`Artzney-Kunst`	`Arzneikunst`
2.2	Von Zeilenumbrüchen betroffene Elemente werden analog zur Primärquelle getrennt tokenisiert. Das Trennungszeichen "⸗" wird übernommen.	Wörter, die von Zeilenumbrüchen betroffen sind, werden in der clean-Ebene ohne den (Doppel-) Bindestrich, der diesen anzeigt, sowie in einer Spanne zusammengefasst realisiert. Die grafische Worttrennung wird somit aufgehoben.
	dipl	clean	norm
	`allge⸗`	`allgemeinen`	`allgemeinen`
	`meinen`	`allgemeinen`	`allgemeinen`
	Von Zeilenumbrüchen betroffene Komposita werden analog zur Primärquelle getrennt tokenisiert, dabei bleibt die Kennzeichnung der morphologischen Worttrennung unberührt.	Wenn ein Kompositum, das durch Gleichheitszeichen grundsätzlich getrennt wird, von einem Zeilenumbruch betroffen ist, so wird dieses Gleichheitszeichen in der clean-Ebene entfernt, das andere Gleichheitszeichen für die morphologische Trennung wird analog zu Nummer 1.1 mit einem Minus ersetzt. Das Kompositum wird in einer Spanne zusammengefasst wiedergegeben.	Die Gleichheitszeichen, die Kompositabildung anzeigen, werden durch Minuszeichen ersetzt oder das Kompositum wird analog zur modernen Orthografie zusammengeschrieben (Grundlage hierfür bildet die aktuelle Ausgabe des Dudens.).
	dipl	clean	norm
	`Stab⸗`	`Stabwurtz-Oel`	`Stabwurzöl`
	`wurtz⸗Oel`	`Stabwurtz-Oel`	`Stabwurzöl`
2.3	Abkürzungen werden analog zur Textgrundlage tokenisiert. Das heißt, auch Setzfehler oder Spatien, die nicht modernen Orthografieregeln entsprechen, werden realisiert.		Abkürzungen werden nach Dudenrichtlinien umgesetzt. Dies hat zur Folge, dass Abkürzungen unterschiedlich tokenisiert werden können (bspw. Abkürzungen als zwei oder mehr Tokens wie u. a. m. vs. solche, die als ein Token realisiert werden, wie usw.). vgl. dazu beide Beispiele in 2.3. In Fällen, in denen keine Dudenrichtlinie zugeordnet werden kann, wird immer nach einem Punkt segmentiert.
	dipl	clean	norm
	`u.`	`u.`	`usw.`
	`ſ.`	`s.`
	`w.`	`w.`
	Abkürzungen werden analog zur Textgrundlage tokenisiert. Das heißt, auch Setzfehler oder Spatien, die nicht modernen Orthografieregeln entsprechen, werden realisiert.		Abkürzungen werden nach Dudenrichtlinien umgesetzt. Dies hat zur Folge, dass Abkürzungen unterschiedlich tokenisiert werden können (bspw. Abkürzungen als zwei oder mehr Tokens wie u. a. m. vs. solche, die als ein Token realisiert werden, wie usw.). vgl. dazu beide Beispiele in 2.3. In Fällen, in denen keine Dudenrichtlinie zugeordnet werden kann, wird immer nach einem Punkt segmentiert.
	dipl	clean	norm
	`u`	`u`	`u.`
	`u`	`u`	`d.`
	`d.g.`	`d.g.`	`g.`
2.4	Punktsetzungen bei Ordinalzahlen werden mit der Ziffer als ein Token realisiert.		Nach modernen Orthografieregeln werden Ordinalzahlen mit Punkt realisiert.
	dipl	clean	norm
	`I.`	`I.`	`I.`
	Die Faksimilia weisen oft Kardinalzahlen mit Interpunktion auf. Diese Punktsetzungen werden mit der jeweiligen Ziffer als Token realisiert. Ausnahmen bilden Zahlen, die mit einem satzbeenden Punkt auftreten. Hier wird wie gewohnt die Satzinterpunktion getrennt von der Kardinalzahl tokenisiert.		Um die Kardinalzahlen von Ordinalzahlen in der norm-Ebene getrennt betrachten zu können, wird die Interpunktion bei Kardinalzahlen weggelassen.
	dipl	clean	norm
	`I.`	`I.`	`I.`
	`Loth`	`Loth`	`Loth`
	`.IX.`	`.IX.`	`IX`
	Zeichenketten wie "5 %", "5-12", "800'" werden auf der dipl und clean als ein Token und in der norm als mehrere Token betrachtet, wenn sie im Scan visuell zusammen stehen. Stehen sie visuell auseinander, werden sie auch als verschiedene Tokens realisiert.		Norm: immer als mehrere Token
2.5	Satzinterpunktion wie Kommata, Punkte, Virgeln oder Semikola werden als jeweils eigenständige Token realisiert.
	dipl	clean	norm
	`finden`	`finden`	`finden`
	`.`	`.`	`.`
	Die Höhe von Punkten wird nicht beachtet. Da wir nicht immer zweifelsfrei feststellen können, wann ein Punkt "hoch" ist und wann "tief", transkribieren wir das alles als normale Punkte.
	dipl	clean	norm
	`keychen`	`keychen`	`keuchen`
	`.`	`.`	`.`
	Dieses Zeichen wird als Punkt transkribiert.
	dipl	clean	norm
	`werden`	`werden`	`werden`
	`.`	`.`	`.`
2.6	Fußnotenreferenzierungen werden in dipl- und clean-Ebene als mehrere Token und in der norm-Ebene als ein Token realisiert.		Norm: ein Token
	dipl	clean	norm
	`(`	`(`	`(*)`
	`*`	`*`
	`)`	`)`
	dipl	clean	norm
	`*`	`*`	`**)`
	`*`	`*`
	`)`	`)`
3.1	Formen, die in phonologischer Hinsicht fnhd. oder dialektalen Lautstand aufweisen, werden in der norm den (standard-)nhd. Entsprechungen angepasst.
	dipl	clean	norm
	`Hellenpein`	`Hellenpein`	`Höllenpein`
	`wänlin`	`wänlin`	`Wännlein`
	Dialektale Formen
	dipl	clean	norm
	`beede`	`beede`	`beide`
	Apokope / Synkope (hier: Synkope)
	dipl	clean	norm
	`hänget`	`hänget`	`hängt`
3.2	Fnhd. Flexionsformen werden durch die nhd. Entsprechungen ersetzt.
	dipl	clean	norm
	`in die Nasen`	`in die Nasen`	`in die Nase`
	`das kal Haupt`	`das kal Haupt`	`das kahle Haupt`
	Es erfolgt keine Anpassung des Genus
	dipl	clean	norm
	`das Milz`	`das Milz`	`das Milz`
	Vom Nhd. abweichende starke oder schwache Verbalflexion bzw. Rückumlaut wird dem nhd. Stand angepasst
	dipl	clean	norm
	`gennent`	`gennent`	`genannt`
	`gebauen`	`gebauen`	`gebaut`
	Auseinanderschreibung
	dipl	clean	norm
	`obgenannt`	`obgenannt`	`oben genannt`
	`hiebevor`	`hiebevor`	`hier bevor`
3.3	Die aus der niederfränkischen Schreibtradition stammende `ij`-Schreibung für Lateinisch "ii" wird in der norm zu `ii` normalisiert.
	dipl	clean	norm
	`Lapatijs`	`Lapatijs`	`Lapatiis`
3.4	Ausgestorbenes lexikalisches Material wird mit modernen Orthografieregeln übernommen, aber nicht lexikografisch übersetzt.
	dipl	clean	norm
	`Vergeſz`	`Vergeſz`	`Vergess`
3.5	Es erfolgt keine morphosyntaktische Anpassung (z.B. innerhalb der Nominalphrase)
	dipl	clean	norm
	(Es) `Heylt die verſehrte Daͤrmelein`	(Es) `Heylt die versehrte Därmelein`	(Es) `Heilt die versehrte Därmlein`
3.6	Ausgestorbene Wortbildungsmorpheme werden nach Möglichkeit durch entsprechende nhd. Bildungen ersetzt. (siehe Beispieltabelle am Schluss)
	dipl	clean	norm
	`halben`(Postposition)	`halben`	`halber` (allenthalben ist ein Adverb und bleibt allenthalben)
	`stachelecht`	`stachelecht`	`stachelig`
3.7	Flexionslose Adjektive, die im Neuhochdeutschen eine overte Flexion enthalten, werden in der norm flektiert, ohne dass der Kasus geändert wird.
	dipl	clean	norm
	`das kal Haupt`	`das kal Haupt`	`das kahle Haupt`
	`bei ſchweinem fleiſch`	`bei schweinem fleisch`	`bei schweinenem Fleisch`
3.8	Intervenieren innerhalb eines Wortes Sonderzeichen, dann werden die Sonderzeichen in der norm-Ebene ignoriert und das unterbrochene Wort zusammengeschrieben.
	dipl	clean	norm
	<lb>
	`Glo-`	`Glo ✠`	`Glover`
	`✠`	`Glo ✠`
	`⊙`	`⊙`
	`ver`	`ver`
	`Graſſ`	`Grass`	`Grass`
	`.`	`.`	`.`
	Text hinter (geschweiften) Klammern, wird nach dem umklammerten Textabschnitt eingefügt.
	dipl
	`Wermuth Wermuth , gemeiner Wermuth , groſzer ſ. Wer⸗ muthbeifuſz.`
	Graphematisch wird grundsätzlich nach dem Duden normalisiert.

Beschreibung	Zeichen	Eingabe über die Tastatur
Schräger Dopppelbindestrich	⸗	2E17
Langes kleines “s”	ſ	017F Alt s
Tilde	̃̃	0303
Ligatur ae	æ	00E6
Ligatur AE	Æ	00C6
Ligatur oe	œ	0153
Ligatur OE	Œ	0152
Akut	´	dead key +
Gravis	`	shift+dead key+
Cedille klein	ç	00E7
Cedille groß	Ç	00C7
Superskribiertes “e”	ͤ	0364
Kreis	å	030A
y mit Punkten	ÿ	00FF
Absatzzeichen	¶	00B6
Abkürzung “der”	ð	AltGr+d
Häkchen über Zeichen	v̉	0309
Zeichen für lat. “recipe”	℞	211E
Zeichen für lat. “libra”	℔	2114
Zeichen für lat. “uncia”	℥	2125
Zeichen für lat. “scrupel”	℈	2108
3 Kreise	∴	2234
Kreis mit Punkt “einjährig”	⊙	2299
Latin Small Letter Rum Rotunda	ꝝ	A75D
Tironisches “et”	⁊	204A

	clean	norm
1	-icht/-echt/-acht/-lote	-(l)ich/-(l)ig
	`ästicht`	`ästig`
	`knöpfflicht`	`knöpfflich`
	`haarecht`	`haarig`
	`holzecht`	`holzig`
	`schattecht`	`schattig`
	`langlecht`	`länglich`
	`laulecht`	`laulig`
	`weißlecht`	`weißlich`
	`rohtlecht`	`rötlich`
	`stachelecht`	`stachelig`
	`gelblote`	`gelblich`
2	deutlich erkennbare Ortsnamen werden als nhd. Form normalisiert
	`Franckfort`	`Frankfurt`
	`Muttetz`	`Muttenz`
3	-lich-Adverbien werden durch nhd. lich-lose Formen ersetzt
	`kräftiglich`	`kräftig`
	`wunderbarlich`	`wunderbar`
4	für-	vor-
4	`fürnehmlich`	`vornehmlich`
5	-für	-vor
5	`herfür`	`hervor`
6	on- / ohne entspricht dem Präfix un-
6	`on-` / `ohne`	`un-`
7	-fnhd. etwan
7	`etwan`	nhd. `etwa` (Adverb) nhd. `etwas` (Pronomen)
8	-erin	flektierte nhd. Form
8	in ein erhabnes `Steinerin` Grab gelegt	`steinernes`
9	-en	-Ø
	`endlichen`	`endlich`
	`sonsten`	`sonst`
	`selbsten`	`selbst`
10	-Ø	-en
	`ob`	`oben`
	`beizeit`	`beizeiten`
11	(Nicht)Normaliserung von Kasus
	mit Normalisierung: Man trinke des wassers	mit Normalisierung von Kasus: Man trinke das Wasser
	Man trinke des wassers	ohne Normalisierung von Kasus: Man trinke des Wassers
12	Vom Nhd. abweichende starke oder schwache Verbalflexion bzw. Rückumlaut wird dem nhd. Stand angepasst
	`gennent`	`genannt`
	`gebauen`	`gebaut`
13	Auseinanderschreibung
	`obgenannt`	`oben genannt`
	`hiebevor`	`hier bevor`
14	ggf. ge-Präfix in Partizipien ergänzen
	`funden`	`gefunden`
	`kommen`	`gekommen`
	`worden`	`geworden`
15	Flexionsformen der Pronomina der, die, das an nhd. Formen anpassen
	`der`	`derer`
	`dero`	`derer`
	`des`	`dessen`
16	fnhd. wann/wenn	nhd. wann (Interrogativpron) nhd. wenn (Subjunktion)
	`wann` wenn es einen Nebensatz einleitet → keine V2 Stellung, sondern VLetzt (auch VLetzt mit Nachfeldbesetzung: wenn man Köl- und Haselbaum pflanzt zu Weinreben)	`wenn`
	`wann` wenn es einen Hauptsatz einleitet → V2 und übersetzbar it nhd. 'denn'	`wann`
	`wenn` wenn es einen Hauptsatz einleitet → V2 und übersetzbar it nhd. 'denn'	`wann`
	`wenn` wenn es einen Nebensatz einleitet → keine V2 Stellung, sondern VLetzt (auch VLetzt mit Nachfeldbesetzung: wenn man Köl- und Haselbaum pflanzt zu Weinreben)	`wenn`
17	-fnhd. söllen/wöllen sind dialektale Formen
	`söllen`	`sollen`
	`wöllen`	`wollen`
18	Eigennamen/Fremdwörter in Komposita werden getrennt geschrieben
	`St. Anthonius Feuer`	`Sankt Anthonius Feuer`
	`Cassia fistel`	`Cassia Fistel`
19	Abkürzung frequenter Wörter und Endungen
	`unn` (sic!)	`und`
	`umm` (sic!)	`um`
	`darumm` (sic!)	`darum`
	`complexiom` (sic!)	`Komplexion`
20	Einzelentscheidungen
	`benommen`	`genommen`
	`Beweisung`	`Beweisung`
	`brauch` (= Gebrauch)	`Brauch`
	`dannenher`	`daher`
	`dennocht`	`dennoch`
	`der selbe`	`der selbe`
	`derselbe`	`derselbe`
	`derowegen`	`deswegen`
	`entbeut`	`entbietet`
	`Epff`	`Epff`
	`fahen`	`fangen`
	`gel`	`gel`
	`gepreist`	`gepriesen`
	`gleichsfalls` `gleichesfalls`	`gleichfalls`
	`guldin`	`golden`
	`halb`	`halber`
	`harm`	`Harn`
	`harmen`	`harnen`
	`hauffecht`	`häufig`
	`leichtlich`	`leicht`
	`liebnusz`	`Liebnis`
	`Mannen`	`Männern`
	`mehrer`	`teils`
	`morgen` (= morgens)	`morgens`
	`namlichen`	`nämlich`
	`Nutz`	`Nutzen`
	`pestnachen`	`Pastinaken`
	`samlen`	`sammeln`
	`schlahen`	`schlagen`
	`sonders`	`sonders`
	(wegen der) `Viele`	`Viele`
	`vierecket`	`viereckig`
	`vor`	`vorher`
	`wehtum`/`wehtumb`	`Wehtun`
	`wofer`	`wofern`
	`wurz`	`wurzel`
	`yedickest`	`gedihest` (Lexer: 'oft')
	`yetliches`	`jegliches`
	`zeuchen`	`ziehen`
	`wa` (als dialektale Form)	`wo`
	`Vättern`	`Väter`
	`nießte`	`neuste`

Handbuch RIDGES Herbology Korpus

Transkription und Normalisierung: Übersicht

Fußnoten und Marginalien

Zeichentabelle

Tabelle: Normalisierungsbeispiele

In Verbindung mit Excel benutzte Tools

Excel-Makro

Python-Skript

Keyboard shortcuts

Handbuch RIDGES Herbology Korpus

Transkription und Normalisierung: Übersicht

Fußnoten und Marginalien

Zeichentabelle

Tabelle: Normalisierungsbeispiele

In Verbindung mit Excel benutzte Tools

Excel-Makro

Python-Skript