Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

Transkription und Normalisierung: Übersicht

Nachfolgend werden die Richtlinien zur Transkription und Normalisierung im Einzelnen gegenübergestellt. Allgemein für jede Segmentierungsebene sowie Annotationsebene gilt, dass keine Leerzeilen oder Leerzeichen enthalten sein dürfen. Dazu wird für jeden Fall ein Beispiel gegeben, die konkrete Regel beschrieben und die weiteren Normalisierungsschritte gegenübergestellt (dipl – clean – norm). Die Richtlinien sind nach Schwerpunkten gruppiert:
(1) Zeichensetzung/Sonderzeichen
(2) Segmentierung/Tokenisierung
(3) Interpunktion.

  1. Transkribieren
    1. J/I
    2. Lautzeichen
    3. Diakritika
    4. Satzzeichen
    5. Sonstige Zeichen
    6. Ligaturen
    7. Griechische Schrift
    8. Typographische Besonderheiten
  2. Tokenisieren
    1. Wort
    2. Zeilenumbrüche
    3. Abkürzungen
    4. Zahlen
    5. Satzzeichen
    6. Fußnoten
  3. Normalisieren
    1. Phonologie
    2. Morphologie
    3. ij/ii
    4. Lexik
    5. Morphosyntax
    6. Wortbildung
    7. Adjektivflexion
    8. Graphematik

Sonderzeichen wie zum Beispiel das “ſ” werden mit Hilfe von Unicodes in der dipl-Ebene realisiert. Eine Liste der zu verwendenden Unicodes ist angefügt.

  1. Nachweis für das Beispiel: Reichmann & Wegera 1993: 31.

Fußnoten und Marginalien

Der Text der Marginalie wird immer am Anfang des jeweiligen Absatzes, in dem/neben dem sie realisiert ist, unabhängig davon, ob so mehrere Marginalien hintereinander oder/und auf der nachfolgenden Seite realisiert werden müssen, in die dipl-Ebene/Transkription aufgenommen.
Der Text der Fußnote wird immer am Ende des Absatzes, in dem sie eingepflegt ist, unabhängig davon, ob sich so die Fußnoten sammeln oder erst auf der nachfolgenden Seite realisiert werden müssten, in die dipl-Ebene/Transkription aufgenommen.


Zeichentabelle

Nr. dipl-Ebene clean-Ebene norm-Ebene
Transkript des Faksimiles. Wird automatisch durch ein Python-Skript (clean-skript.py) erstellt. Dieses ersetzt alle heute unüblichen Sonderzeichen durch heute verwendete Entsprechungen. Erfolgt manuell im .xlsx Format nach der modernen neuen Rechtschreibung.
Tipp: Kopieren Sie sich die clean-Ebene und verändern Sie dann die entsprechenden Stellen!
1.0 Nicht mehr lesbare Zeichen oder Zeichenketten werden mit einem Unterstrich markiert, unabhängig davon, wieviele Zeichen (in etwa) nicht mehr interpretiert werden können. Durch die fehlende Transkription ist eine Normalisierung nicht mehr möglich. Dies wird mit dem Platzhalter-Tag "unknown" angezeigt. Durch die fehlende Transkription ist eine Normalisierung nicht mehr möglich. Dies wird mit dem Platzhalter-Tag "unknown" angezeigt.
dipl clean norm
_ unknown unknown
Handschriftliche Versalien, die offensichtlich zum Text gehören (KEINE Anmerkungen oder Kommentare von Lesern), werden mit annotiert.

Abbildung eines Buchausschnitts, zeigt die Versalie A im Wort ABsinthium
dipl clean norm
ABſinthium ABsinthium ABsinthium
1.1 Die Zeichen für 'I' und 'J' sind in Fraktur-Texten grafisch in der Regel nicht voneinander unterscheidbar. Konvention in RIDGES ist daher, das Zeichen in der dipl als J darzustellen und erst in der norm-Ebene das Zeichen individuell nach moderner Orthografie zu interpretieren.

Abbildung eines Buchausschnitts, zeigt das Wort 'Ist' mit großem I, das einem großen J gleicht
Wie in der dipl-Ebene. Anpassung an moderne Orthografie.
dipl clean norm
Jſt Jst Ist
1.2 Das ſ wird übernommen. Das lange "ſ" wird durch ein reguläres s ersetzt.
dipl clean norm
Leſer Leser Leser
Abbildung eines Buchausschnitts, zeigt ein Zeichen, das ein 'x' ist
Dies ist ein x
dipl clean norm
x x x
Das Zeichen Ʒ (bzw. ʒ) wird in der dipl-Ebene nicht von Z (bzw. z) unterschieden. Beide Varianten werden als Z (bzw. z) transkribiert. Wie in der dipl-Ebene.
dipl clean norm
Abbildung eines Buchausschnitts, zeigt ein Zeichen, das ein 'z' ist
Dies ist ein z
z z
In manchen Drucken sieht das Zeichen y etwas anders aus; es wird aber als "normales" y transkribiert.
dipl clean norm
Abbildung eines Buchausschnitts, zeigt ein Zeichen, das ein 'y' ist
Dies ist ein y
y y
1.3 Alle Akzente werden übernommen. Alle Akzente werden übernommen. Alle Akzente werden übernommen.
dipl clean norm
Abbildung eines Buchausschnitts, zeigt das Wort 'immané' mit Akzent auf dem 'e'
immané
immané immané
Abbildung eines Buchausschnitts, zeigt das Wort 'Quòd' mit Akzent auf dem 'o'
Quòd
Quòd Quòd
Abbildung eines Buchausschnitts, zeigt das Wort 'vitâ' mit Akzent auf dem 'a'
vitâ
vitâ vitâ
Abbildung eines Buchausschnitts, zeigt das Wort 'zů' mit Diakritikum auf dem 'u'
Dieses Zeichen wirdübernommen.
Dieses diakritische Zeichen wird in der clean-Ebene nicht mehr realisiert und durch den zugrundeliegenden Vokal ersetzt.
dipl clean norm
zu zu
Abbildung eines Buchausschnitts, zeigt das Wort 'genaͤdiger' mit superkribiertem 'e' über dem 'a'
Umlaute mit superskribiertem "e" werden übernommen.
Umlaute mit superskribiertem "e" werden wie moderne Umlaute des Deutschen realisiert.
dipl clean norm
genaͤdiger genädiger gnädiger
Abbildung eines Buchausschnitts, zeigt das Wort 'die' mit schrägem Strich über dem 'i'
'í' mit schrägem Strich wird nicht vom 'i' mit Punkt unterschieden. Beide Varianten werden als i transkribiert.
dipl clean norm
die die die
Abbildung eines Buchausschnitts, zeigt das Wort 'fünff' mit Schrägen Strichen über dem 'u'
Das "ű" mit schrägen Strichen wird nicht nicht vom ü mit Punkten unterschieden. Beide Varianten werden als ü transkribiert.
dipl clean norm
fünff fünff fünf
Alle horizonalen Striche über einem Zeichen werden als Tilde ( ̃̃ ) interpretiert.
Eine Tilde kann stehen für:
ausgelassene Nasale, sog. Nasalstrich
Tilden werden entsprechend ihrer Funktion umgesetzt. Die kann u. a. aus Reichmann & Wegera (1993) entnommen werden.1
Achtung: In der clean-Ebene wird der Strich automatisch als Nasalstrich interpretiert. Gegebenenfalls in der norm ausgleichen.
Gegebenenfalls in der clean-Ebene eingefügte Nasale anders umsetzen.
dipl clean norm
Abbildung eines Buchausschnitts, zeigt das Wort 'om̃ia' mit Nasalstrich über dem 'm'
om̃ia
omnia omnia
Abbildung eines Buchausschnitts, zeigt die Wörter 'sciẽtiã meã' mit Nasalstrichen über dem ersten 'e' und den beiden 'a's
sciẽtiã meã
scientiam meam scientiam meam
Abbildung eines Buchausschnitts, zeigt das Wort 'eı̃' mit Nasalstrich über dem 'i'
eı̃
ein ein
Abbildung eines Buchausschnitts, zeigt das Wort 'samẽ' mit Nasalstrich über dem 'e'
samẽ
samen Samen
Abbildung eines Buchausschnitts, zeigt das Wort 'eynẽ' mit Nasalstrich über dem 'e'
einẽ
eynem einem
Abbildung eines Buchausschnitts, zeigt das Wort 'nẽlich' mit Nasalstrich über dem 'e'
nẽlich
nemlich nämlich
Verdopplung eines Buchstabens
dipl clean norm
Abbildung eines Buchausschnitts, zeigt das Wort 'him̃el' mit Nasalstrich über dem 'm'
him̃el
himmel Himmel
Abbildung eines Buchausschnitts, zeigt das Wort 'iñ' mit Nasalstrich über dem 'n'
inn in
Abbildung eines Buchausschnitts, zeigt das Wort 'oder' mit Dicit-Zeichen
Das Dicit-Zeichen (Abkürzung für "der") wird in der dipl-Ebene mit ð übernommen
Es wird in der clean automatisch mit "der" ersetzt In der norm auch.
dipl clean norm
oder oder
Abbildung eines Buchausschnitts, zeigt das Wort 'deꝰ'
Dieses Zeichen wird mit repräsentiert.
Ersetzung durch us Ersetzung durch us
dipl clean norm
deꝰ deus deus
Abbildung eines Buchausschnitts, zeigt das Wort 'v̉tzerẽ' Ersetzung durch er Ersetzung durch er
dipl clean norm
v̉tzerẽ vertzeren verzehren
1.4 Abbildung eines Buchausschnitts, zeigt ein '⸗'
Das Zeichen für morphologische Worttrennung (oder Zeilenumbruch) wird mit übernommen.
Die morphologische Trennung durch "⸗" bleibt erhalten, wird jedoch mit einem regulären - ersetzt. Komposita, die in der dipl-Ebene mit einem realisiert werden, behalten dieses Zeichen bei, um die allgemeine Suche nach Komposita in dieser Ebene zu ermöglichen. Für Erläuterungen zur rein grafischen Trennung, wie Zeilenumbrüchen, siehe Nummer 2.1. Gleichheitszeichen, die Kompositabildung anzeigen, werden durch Minuszeichen (-) ersetzt oder das Kompositum wird analog zur modernen Orthografie zusammengeschrieben (Grundlage hierfür ist der aktuelle Stand des Dudens).
dipl clean norm
Dañ⸗reiſz Dann-reisz Tannenreis
Halbgeviertstriche (en dash, "–") und Geviertstriche (em dash, "—") werden als einfache Bindestriche (-) transkribiert.
dipl clean norm
- - -
Das "modifizierende Pluszeichen" (˖) wird übernommen. In der clean wird das Zeichen zu : normalisiert. In der norm wird das Zeichen zu : normalisiert.
dipl clean norm
˖ : :
Das Absatzzeichen () wird in dipl-, clean- und norm-Ebene übernommen.
dipl clean norm
1.5 Bruchangaben werden mit / übernommen. Dabei wird getrennt segmentiert, um gemischte Brüche transparent zu halten. Bruchangaben werden mit / übernommen. Dabei wird getrennt segmentiert, um gemischte Brüche transparent zu halten. Bruchangaben werden mit / übernommen. Dabei wird getrennt segmentiert, um gemischte Brüche transparent zu halten.
dipl clean norm
1 1 1
1/2 1/2 1/2
Abbildung eines Buchausschnitts, zeigt das '⊙'-Symbol
Dieses Symbol wird übernommen.
Dieses Symbol wird übernommen. Dieses Symbol wird übernommen.
dipl clean norm
Abbildung eines Buchausschnitts, zeigt einen Senkrechtstrich
Senkrechtstriche werden mit | übernommen.
Senkrechtstriche werden übernommen. Senkrechtstriche werden übernommen.
dipl clean norm
dieſe diese diese
| | |
Abbildung eines Buchausschnitts, zeigt ein 'Zwitter'-Symbol
Dieses Symbol wird als $ transkribiert. Es bedeutet wahrscheinlich "Zwitter" bzw. "zwitterig".
Die als Platzhalter dienenden Dollarzeichen werden übernommen. Dollarzeichen werden übernommen. In der Ebene "comment" kann ergänzt werden, dass das Zeichen vermutlich "Zwitter" oder "zwitterig" bedeutet.
dipl clean norm
$ $ $
Abbildung eines Buchausschnitts, zeigt das Tironische 'et'
Dieses Zeichen wird als transkribiert. Es handelt sich hierbei um das Tironische "et".
dipl clean norm
et et
1.6 Die Ligaturen æ und Æ werden übernommen. Das gleiche gilt ebenfalls für Œ und œ Die Ligatur wird aufgelöst.
dipl clean norm
hæc haec haec
Abbildung eines Buchausschnitts, zeigt eine ct-Ligatur
Die ct-Ligatur wird nicht übernommen.
Die ct-Ligatur wird nicht übernommen. Die ct-Ligatur wird nicht übernommen.
dipl clean norm
Lactucis Lactucis Lactucis
Abbildung eines Buchausschnitts, zeigt eine Ligatur aus 'v̈' und 'v'
Dies ist eine Ligatur aus v̈ und v. Die Ligatur wird aufgelöst: v̈v
v̈v
dipl clean norm
Abbildung eines Buchausschnitts, zeigt das Wort 'hev̈vſchrecken' mit einer Ligatur aus 'v̈' und 'v'
hev̈vſchrecken
hev̈vschrecken Heuschrecken
Die ſz-Ligatur wird mit dem langen "ſ" und "z" übernommen: ſz Die Ligatur wird analog zu dipl aufgelöst: sz Nach modernen Orthografieregeln wird für "sz" das ß verwendet.
dipl clean norm
Abbildung eines Buchausschnitts, zeigt das Wort 'Uberfluſz' mit einer Ligatur aus 'ſ' und 'z'
Uberfluſz
Uberflusz Überfluss
Griechische Ligaturen werden nicht abgebildet, sondern bereits in der dipl aufgelöst:
Abbildung eines Buchausschnitts, zeigt das griechische Wort 'ἄκανθος' mit einer Ligatur aus 'o' und 'ς'
Ligatur aus o und ς

Als Hilfe: https://de.wikipedia.org/wiki/Griechisches_Alphabet#/media/File:Greek_alphabet_ligatures.jpg
dipl clean norm
ἄκανθος ἄκανθος ἄκανθος
Abbildung eines Buchausschnitts, zeigt ein Zeichen für 'etc.'
Dies beteutet "etc."
dipl clean norm
& & etc.
c. c.
Das kaufmännische Und (&) wird übernommen. Das kaufmännische Und (&) wird übernommen. Das kaufmännische Und (&) wird übernommen.
dipl clean norm
& & &
1.7 Sprachliches Material mit anderen Schriftsystemen (z.B. Griechisch) wird in clean und norm nicht geändert.
http://www.unicode.org/charts/PDF/U0370.pdf
sowie
http://www.unicode.org/charts/PDF/U0370.pdf
dipl clean norm
ἄκανθος ἄκανθος ἄκανθος
1.8 Oft werden die ersten Zeichen bzw. ersten Wörter (im Bsp. Von Weg⸗) einer neuen Seite bei einem Seitenumbruch in der vorhergehenden Seite in einem eigenen Absatz/in einer eigenen Zeile doppelt realisert (sog. Kustoden). Diese Zeichen bzw. das Wort wird nicht mit in das Transkript aufgenommen.
2 Abbildung eines Buchausschnitts, zeigt das Wort 'Spannen⸗lang'
Auch entgegen moderner Orthografieregeln wird analog zur Textgrundlage tokenisiert.
Wortbildung und Großschreibung, die nicht der modernen Orthografieregeln entsprechen, werden angeglichen.
dipl clean norm
Spannen⸗lang Spannen-lang spannenlang
2.1 Klitisierte Elemente können zusammengeschrieben (z.B. ichs, bedarfs, aufs) oder apostrophiert dargesetllt sein (z.B. ich's, bedarf's, auf's). Klitisiert werden schwach betonte Morpheme. Z.B.: Formen des Personalpronomens, unbestimmter oder bestimmter Artikel Klitika werden als ein Token realisiert. Klitika werden in dieser Ebene aufgelöst. Dazu wird die Tokenisierung verändert, indem aus einem Token in dipl (oder clean) zwei Token gemacht werden!.
dipl clean norm
Abbildung eines Buchausschnitts, zeigt das Wort 'ichs'
ichs
ichs ich
es
Auch entgegen moderner Orthografieregeln wird analog zur Textgrundlage tokenisiert. Getrennt- und Zusammenschreibung wird nach modernen Orthografieregeln angepasst. Dazu wird die Tokenisierung verändert, indem aus einem Token in der dipl-Ebene (oder clean) zwei Token in der norm-Ebene gemacht werden!
dipl clean norm
zuſetzen zusetzen zu
setzen
Im Falle einer Worttrennung aufgrund von Zeilenumbrüchen, die keine overte, grafische Markierung wie "⸗" oder "-" beinhalten, werden formal die getrennten Elemente als jeweils ein Token in der dipl-Ebene betrachtet. Auch entgegen moderner Orthografieregeln wird analog zur Textgrundlage tokenisiert. Die Worttrennung ohne grafische Markierung ist nicht in jedem Fall transparent. Grafische Normalisierungen werden nicht vorgenommen. Diese Art der Worttrennung, wenn sie transparent ist, wird nach modernen Orthografieregeln normalisiert und die grafische Trennung aufgehoben.
dipl clean norm
ge ge genannt
nent nent
Komposita, egal welcher Komplexität oder Bildungsweise, mit Gleichheitszeichen werden als ein Token realisiert. Die morphologische Trennung durch "⸗" bleibt erhalten, wird jedoch mit einem regulären "-" ersetzt. Gleichheitszeichen, die Kompositabildung anzeigen, werden durch Minuszeichen ersetzt oder das Kompositum wird analog zur modernen Orthografie zusammengeschrieben (Grundlage hierfür bildet die aktuelle Ausgabe des Dudens.).
dipl clean norm
Artzney⸗Kunſt Artzney-Kunst Arzneikunst
2.2 Von Zeilenumbrüchen betroffene Elemente werden analog zur Primärquelle getrennt tokenisiert. Das Trennungszeichen "⸗" wird übernommen. Wörter, die von Zeilenumbrüchen betroffen sind, werden in der clean-Ebene ohne den (Doppel-) Bindestrich, der diesen anzeigt, sowie in einer Spanne zusammengefasst realisiert. Die grafische Worttrennung wird somit aufgehoben.
dipl clean norm
allge⸗ allgemeinen allgemeinen
meinen
Von Zeilenumbrüchen betroffene Komposita werden analog zur Primärquelle getrennt tokenisiert, dabei bleibt die Kennzeichnung der morphologischen Worttrennung unberührt. Wenn ein Kompositum, das durch Gleichheitszeichen grundsätzlich getrennt wird, von einem Zeilenumbruch betroffen ist, so wird dieses Gleichheitszeichen in der clean-Ebene entfernt, das andere Gleichheitszeichen für die morphologische Trennung wird analog zu Nummer 1.1 mit einem Minus ersetzt. Das Kompositum wird in einer Spanne zusammengefasst wiedergegeben. Die Gleichheitszeichen, die Kompositabildung anzeigen, werden durch Minuszeichen ersetzt oder das Kompositum wird analog zur modernen Orthografie zusammengeschrieben (Grundlage hierfür bildet die aktuelle Ausgabe des Dudens.).
dipl clean norm
Stab⸗ Stabwurtz-Oel Stabwurzöl
wurtz⸗Oel
2.3 Abkürzungen werden analog zur Textgrundlage tokenisiert. Das heißt, auch Setzfehler oder Spatien, die nicht modernen Orthografieregeln entsprechen, werden realisiert. Abkürzungen werden nach Dudenrichtlinien umgesetzt. Dies hat zur Folge, dass Abkürzungen unterschiedlich tokenisiert werden können (bspw. Abkürzungen als zwei oder mehr Tokens wie u. a. m. vs. solche, die als ein Token realisiert werden, wie usw.). vgl. dazu beide Beispiele in 2.3. In Fällen, in denen keine Dudenrichtlinie zugeordnet werden kann, wird immer nach einem Punkt segmentiert.
dipl clean norm
u. u. usw.
ſ. s.
w. w.
Abkürzungen werden analog zur Textgrundlage tokenisiert. Das heißt, auch Setzfehler oder Spatien, die nicht modernen Orthografieregeln entsprechen, werden realisiert. Abkürzungen werden nach Dudenrichtlinien umgesetzt. Dies hat zur Folge, dass Abkürzungen unterschiedlich tokenisiert werden können (bspw. Abkürzungen als zwei oder mehr Tokens wie u. a. m. vs. solche, die als ein Token realisiert werden, wie usw.). vgl. dazu beide Beispiele in 2.3. In Fällen, in denen keine Dudenrichtlinie zugeordnet werden kann, wird immer nach einem Punkt segmentiert.
dipl clean norm
u u u.
d.
d.g. d.g. g.
2.4 Punktsetzungen bei Ordinalzahlen werden mit der Ziffer als ein Token realisiert. Nach modernen Orthografieregeln werden Ordinalzahlen mit Punkt realisiert.
dipl clean norm
I. I. I.
Die Faksimilia weisen oft Kardinalzahlen mit Interpunktion auf. Diese Punktsetzungen werden mit der jeweiligen Ziffer als Token realisiert. Ausnahmen bilden Zahlen, die mit einem satzbeenden Punkt auftreten. Hier wird wie gewohnt die Satzinterpunktion getrennt von der Kardinalzahl tokenisiert.
Abbildung eines Buchausschnitts, zeigt 'I. Loth'
Abbildung eines Buchausschnitts, zeigt '.IX.'
Um die Kardinalzahlen von Ordinalzahlen in der norm-Ebene getrennt betrachten zu können, wird die Interpunktion bei Kardinalzahlen weggelassen.
dipl clean norm
I. I. I.
Loth Loth Loth
.IX. .IX. IX
Zeichenketten wie "5 %", "5-12", "800'" werden auf der dipl und clean als ein Token und in der norm als mehrere Token betrachtet, wenn sie im Scan visuell zusammen stehen. Stehen sie visuell auseinander, werden sie auch als verschiedene Tokens realisiert. Norm: immer als mehrere Token
2.5 Abbildung eines Buchausschnitts, zeigt 'finden' mit Punkt dahinter
Satzinterpunktion wie Kommata, Punkte, Virgeln oder Semikola werden als jeweils eigenständige Token realisiert.
dipl clean norm
finden finden finden
. . .
Abbildung eines Buchausschnitts, zeigt das Wort 'keychen' mit höher gestelltem Punkt dahinter
Die Höhe von Punkten wird nicht beachtet. Da wir nicht immer zweifelsfrei feststellen können, wann ein Punkt "hoch" ist und wann "tief", transkribieren wir das alles als normale Punkte.
dipl clean norm
keychen keychen keuchen
. . .
Bildausschnitt aus einem Buch, zeigt das Wort 'werden' gefolgt von einem Punkt mit einem Zeichen drüber
Dieses Zeichen wird als Punkt transkribiert.
dipl clean norm
werden werden werden
. . .
2.6 Fußnotenreferenzierungen werden in dipl- und clean-Ebene als mehrere Token und in der norm-Ebene als ein Token realisiert. Norm: ein Token
dipl clean norm
( ( (*)
* *
) )
dipl clean norm
* * **)
* *
) )
3.1 Formen, die in phonologischer Hinsicht fnhd. oder dialektalen Lautstand aufweisen, werden in der norm den (standard-)nhd. Entsprechungen angepasst.
dipl clean norm
Hellenpein Hellenpein Höllenpein
wänlin wänlin Wännlein
Dialektale Formen
dipl clean norm
beede beede beide
Apokope / Synkope (hier: Synkope)
dipl clean norm
hänget hänget hängt
3.2 Fnhd. Flexionsformen werden durch die nhd. Entsprechungen ersetzt.
dipl clean norm
in die Nasen in die Nasen in die Nase
das kal Haupt das kal Haupt das kahle Haupt
Es erfolgt keine Anpassung des Genus
dipl clean norm
das Milz das Milz das Milz
Vom Nhd. abweichende starke oder schwache Verbalflexion bzw. Rückumlaut wird dem nhd. Stand angepasst
dipl clean norm
gennent gennent genannt
gebauen gebauen gebaut
Auseinanderschreibung
dipl clean norm
obgenannt obgenannt oben genannt
hiebevor hiebevor hier bevor
3.3 Die aus der niederfränkischen Schreibtradition stammende ij-Schreibung für Lateinisch "ii" wird in der norm zu ii normalisiert.
dipl clean norm
Lapatijs Lapatijs Lapatiis
3.4 Ausgestorbenes lexikalisches Material wird mit modernen Orthografieregeln übernommen, aber nicht lexikografisch übersetzt.
dipl clean norm
Vergeſz Vergeſz Vergess
3.5 Es erfolgt keine morphosyntaktische Anpassung (z.B. innerhalb der Nominalphrase)
dipl clean norm
(Es) Heylt die verſehrte Daͤrmelein (Es) Heylt die versehrte Därmelein (Es) Heilt die versehrte Därmlein
3.6 Ausgestorbene Wortbildungsmorpheme werden nach Möglichkeit durch entsprechende nhd. Bildungen ersetzt. (siehe Beispieltabelle am Schluss)
dipl clean norm
halben(Postposition) halben halber
(allenthalben ist ein Adverb und bleibt allenthalben)
stachelecht stachelecht stachelig
3.7 Flexionslose Adjektive, die im Neuhochdeutschen eine overte Flexion enthalten, werden in der norm flektiert, ohne dass der Kasus geändert wird.
dipl clean norm
das kal Haupt das kal Haupt das kahle Haupt
bei ſchweinem fleiſch bei schweinem fleisch bei schweinenem Fleisch
3.8 Intervenieren innerhalb eines Wortes Sonderzeichen, dann werden die Sonderzeichen in der norm-Ebene ignoriert und das unterbrochene Wort zusammengeschrieben.
dipl clean norm
Abbildung eines Buchausschnitts, zeigt 'Glo-<lb>
Abbildung eines Buchausschnitts, zeigt zwe Zeichen vor 'ver Graſſ.
Glo- Glo ✠ Glover
ver ver
Graſſ Grass Grass
. . .
Text hinter (geschweiften) Klammern, wird nach dem umklammerten Textabschnitt eingefügt.
dipl
Abbildung eines Buchausschnitts, zeigt Text hinter einer geschweiften Klammer
Wermuth Wermuth , gemeiner Wermuth , groſzer ſ. Wer⸗ muthbeifuſz.
Graphematisch wird grundsätzlich nach dem Duden normalisiert.
BeschreibungZeichenEingabe über die Tastatur
Schräger Dopppelbindestrich2E17
Langes kleines “s”ſ017F
Alt s
Tildẽ̃0303
Ligatur aeæ00E6
Ligatur AEÆ00C6
Ligatur oeœ0153
Ligatur OEŒ0152
Akut´dead key +
Gravis`shift+dead key+
Cedille kleinç00E7
Cedille großÇ00C7
Superskribiertes “e”ͤ0364
Kreiså030A
y mit Punktenÿ00FF
Absatzzeichen00B6
Abkürzung “der”ðAltGr+d
Häkchen über Zeichen0309
Zeichen für lat. “recipe”211E
Zeichen für lat. “libra”2114
Zeichen für lat. “uncia”2125
Zeichen für lat. “scrupel”2108
3 Kreise2234
Kreis mit Punkt “einjährig”2299
Latin Small Letter Rum RotundaA75D
Tironisches “et”204A

Tabelle SEQ Tabelle * ARABIC 2: Zeichentabelle


Tabelle: Normalisierungsbeispiele

clean norm
1 -icht/-echt/-acht/-lote -(l)ich/-(l)ig
ästicht ästig
knöpfflicht knöpfflich
haarecht haarig
holzecht holzig
schattecht schattig
langlecht länglich
laulecht laulig
weißlecht weißlich
rohtlecht rötlich
stachelecht stachelig
gelblote gelblich
2 deutlich erkennbare Ortsnamen werden als nhd. Form normalisiert
Franckfort Frankfurt
Muttetz Muttenz
3 -lich-Adverbien werden durch nhd. lich-lose Formen ersetzt
kräftiglich kräftig
wunderbarlich wunderbar
4 für- vor-
fürnehmlich vornehmlich
5 -für -vor
herfür hervor
6 on- / ohne entspricht dem Präfix un-
on- / ohne un-
7 -fnhd. etwan
etwan nhd. etwa (Adverb)
nhd. etwas (Pronomen)
8 -erin flektierte nhd. Form
in ein erhabnes Steinerin Grab gelegt steinernes
9 -en
endlichen endlich
sonsten sonst
selbsten selbst
10 -en
ob oben
beizeit beizeiten
11 (Nicht)Normaliserung von Kasus
mit Normalisierung: Man trinke des wassers mit Normalisierung von Kasus:
Man trinke das Wasser
Man trinke des wassers ohne Normalisierung von Kasus:
Man trinke des Wassers
12 Vom Nhd. abweichende starke oder schwache Verbalflexion bzw. Rückumlaut wird dem nhd. Stand angepasst
gennent genannt
gebauen gebaut
13 Auseinanderschreibung
obgenannt oben genannt
hiebevor hier bevor
14 ggf. ge-Präfix in Partizipien ergänzen
funden gefunden
kommen gekommen
worden geworden
15 Flexionsformen der Pronomina der, die, das an nhd. Formen anpassen
der derer
dero derer
des dessen
16 fnhd. wann/wenn nhd. wann (Interrogativpron)
nhd. wenn (Subjunktion)
wann

wenn es einen Nebensatz einleitet → keine V2 Stellung, sondern VLetzt (auch VLetzt mit Nachfeldbesetzung: wenn man Köl- und Haselbaum pflanzt zu Weinreben)
wenn
wann

wenn es einen Hauptsatz einleitet → V2 und übersetzbar it nhd. 'denn'
wann
wenn

wenn es einen Hauptsatz einleitet → V2 und übersetzbar it nhd. 'denn'
wann
wenn

wenn es einen Nebensatz einleitet → keine V2 Stellung, sondern VLetzt (auch VLetzt mit Nachfeldbesetzung: wenn man Köl- und Haselbaum pflanzt zu Weinreben)
wenn
17 -fnhd. söllen/wöllen sind dialektale Formen
söllen sollen
wöllen wollen
18 Eigennamen/Fremdwörter in Komposita werden getrennt geschrieben
St. Anthonius Feuer Sankt Anthonius Feuer
Cassia fistel Cassia Fistel
19 Abkürzung frequenter Wörter und Endungen
Abbildung eines Buchausschnitts, zeigt 'vñ' mit Nasalstrich über dem 'n'
unn (sic!)
und
Abbildung eines Buchausschnitts, zeigt 'vm̃' mit Nasalstrich über dem 'm'
umm (sic!)
um
Abbildung eines Buchausschnitts, zeigt 'darum̃' mit Nasalstrich über dem 'm'
darumm (sic!)
darum
Abbildung eines Buchausschnitts, zeigt 'complexiõ' mit Nasalstrich über dem 'o'
complexiom (sic!)
Komplexion
20 Einzelentscheidungen
benommen genommen
Beweisung Beweisung
brauch (= Gebrauch) Brauch
dannenher daher
dennocht dennoch
der selbe der selbe
derselbe derselbe
derowegen deswegen
entbeut entbietet
Epff Epff
fahen fangen
gel gel
gepreist gepriesen
gleichsfalls
gleichesfalls
gleichfalls
guldin golden
halb halber
harm Harn
harmen harnen
hauffecht häufig
leichtlich leicht
liebnusz Liebnis
Mannen Männern
mehrer teils
morgen (= morgens) morgens
namlichen nämlich
Nutz Nutzen
pestnachen Pastinaken
samlen sammeln
schlahen schlagen
sonders sonders
(wegen der) Viele Viele
vierecket viereckig
vor vorher
wehtum/wehtumb Wehtun
wofer wofern
wurz wurzel
yedickest gedihest (Lexer: 'oft')
yetliches jegliches
zeuchen ziehen
wa (als dialektale Form) wo
Vättern Väter
nießte neuste

In Verbindung mit Excel benutzte Tools

Excel-Makro

SearchAndMerge.bas: https://hu.berlin/search-and-merge
Das Makro SearchAndMerge.bas sucht in einem markierten Bereich nach leeren Zellen (kleiner gleich 300 leere Zellen nacheinander) und vereinigt diese mit der letzten Vorgängerzelle, die einen Wert enthält.

Python-Skript

clean-skript_V3.py: https://hu.berlin/clean-script-v3
Die neuen Texte ab Version 5 stellten neue Anforderungen an die <clean>-Ebene, neue Zeichenersetzungen wurden nötig sowie ein komplett neuer Umgang mit Nasalstrichen. Die vorigen Texte ließen Zeichenersetzungen der Nasalstriche zu den jeweiligen Nasalen durch Kontextbetrachtung zu, während die neuen Texte viele von diesen alten Regularitäten nicht mehr erfüllen. Deshalb wird ab der zweiten Version des clean-Skriptes anders mit solchen Nasalstrichen verfahren. Statt den Kontext zu betrachten und eine eindeutige Entscheidung zugunsten eines Nasals zu treffen, werden nun alle in Frage kommenden Zeichenersetzungen berücksichtigt und die möglichen Token werden durch | getrennt dargestellt.

Bei der weiteren Bearbeitung in Excel kann es nach Anwendung des Clean-Skripts zu ungewollten automatischen Formatierungen kommen, ÜBERPRÜFEN!!!
1/2 wurde durch Excel zu 01.Februar. Das normalisierte falsch wurde durch Excel zum logischen Operator FALSCH.