Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

norm-Normalisierung

Durch die einzelnen Normalisierungsschritte und der daraus resultierenden multiplen Segmentierung ist es möglich, die uneinheitliche Orthografie in einzelnen Texten sowie im diachronen Verlauf zu vereinheitlichen und dennoch die spezifischen Besonderheiten des jeweiligen Textes/der jeweiligen Sprachstufe im Korpus abzubilden. Weiterhin können automatische Tagging- und Parsing-Tools, die in vielen Fällen auf modernem Deutsch trainiert sind, auf der norm-Ebene angewandt werden.

Die norm-Ebene beinhaltet normalisierte Annotationen der clean-Token. Die Normalisierung erfolgt hinsichtlich Tokenisierung, Graphematik, Phonologie und Morphologie.

Normalisierungsideal ist die gegenwartssprachliche deutsche Norm (standarddt.), die durch das Duden-Wörterbuch und die Duden-Grammatik repräsentiert wird.

Nicht normalisiert werden Morphosyntax, Syntax, Lexik und Pragmatik.

Normalisierungsrichtlinien

Normalisierungsrichtlinien

Allgemeine Richtlinien und Hinweise

FaksimilédiplcleannormBeschreibung
_unknownunknownBei nicht lesbaren Zeichen oder Zeichenketten ist durch die fehlende Transkription ist eine Normalisierung nicht mehr möglich. Dies wird in der clean-Ebene mit dem Platzhalter-Tag unknown angezeigt und in der norm-Ebene übernommen.
Abbildung eines Buchausschnitts, zeigt die Versalie A im Wort ABsinthiumABſinthiumABsinthiumABsinthiumHandschriftliche Versalien, die offensichtlich zum Text gehören (KEINE Anmerkungen oder Kommentare von Lesern), werden in der dipl mit annotiert und in der clean und norm übernommen.

Beachte!

Bei der weiteren Bearbeitung in Excel kann es nach Anwendung des Clean-Skripts zu ungewollten automatischen Formatierungen kommen, ÜBERPRÜFEN!!!
1/2 wurde durch Excel zu 01.Februar. Das normalisierte falsch wurde durch Excel zum logischen Operator FALSCH.

Als Grundlage für die moderne Orthografie gilt die aktuelle Ausgabe des Dudens.

Tokenisierung

  • Die Annotation auf der norm-Ebene repräsentiert die standarddt. lexikalischen Einheiten:
    diplnorm
    Rinder ZungeRinderzunge
  • Wortsegmentierung und Großschreibung, die nicht den modernen Orthografieregeln entsprechen, werden angeglichen.
    Faksimilédiplcleannorm
    Abbildung eines Buchausschnitts, zeigt das Wort 'Spannen⸗lang'Spannen⸗langSpannen-langspannenlang

Wort

  • Klitika werden in der norm-Ebene aufgelöst. Dazu wird die Tokenisierung verändert, indem aus einem Token zwei Token gemacht werden.

    Faksimilédiplcleannorm
    Abbildung eines Buchausschnitts, zeigt das Wort 'ichs'ichsichsich
    es
    [2 Token]
  • Getrennt- und Zusammenschreibung wird nach modernen Orthografieregeln angepasst. Dazu wird die Tokenisierung verändert, indem aus einem Token in der dipl-Ebene (oder clean) zwei Token in der norm-Ebene gemacht werden!

    Faksimilédiplcleannorm
    zuſetzenzusetzenzu
    setzen
    [2 Token]
  • Zusammenschreibungen von Lexemen unterschiedlichen Wortarten werden in der norm-Ebene aufgelöst (2 Token).

diplcleannormBeschreibung
obgenanntobgenanntoben genanntAdverb + Partizip
hiebevorhiebevorhier bevorAdverb + Adverb
  • Worttrennung aufgrund von Zeilenumbrüchen, die keine overte, grafische Markierung wie “⸗” oder “-” beinhalten, wird – wenn sie transparent ist – nach modernen Orthografieregeln normalisiert und die grafische Trennung aufgehoben.

    Faksimilédiplcleannorm
    ge
    nent
    ge
    nent
    genannt
  • Komposita werden analog zur modernen Orthografie zusammengeschrieben (Grundlage hierfür bildet die aktuelle Ausgabe des Dudens).

Faksimilédiplcleannorm
Artzney⸗KunſtArtzney-KunstArzneikunst
Abbildung eines Buchausschnitts, zeigt ein '⸗'Dañ⸗reiſzDann-reiszTannenreis

Zeilenumbrüche

  • Wörter, die von Zeilenumbrüchen betroffen sind, werden in der clean- und norm-Ebene ohne den (Doppel-) Bindestrich, der diesen anzeigt, realisiert und in einer Spanne zusammengefasst. Die grafische Worttrennung wird somit aufgehoben.

    Faksimilédiplcleannorm
    allge⸗
    meinen
    [2 Token]
    allgemeinen
    [1 Token]
    allgemeinen
    [1 Token]
  • Wenn Komposita von einem Zeilenumbruch betroffen sind, werden sie behandelt wie Komposita innerhalb einer Zeile und analog zur modernen Orthografie zusammengeschrieben (Siehe Duden).

    Faksimilédiplcleannorm
    Stab⸗
    wurtz⸗Oel
    [2 Token]
    Stabwurtz-Oel
    [1 Token]
    Stabwurzöl
    [1 Token]

Abkürzungen

  • Abkürzungen werden nach Dudenrichtlinien umgesetzt. Dies hat zur Folge, dass Abkürzungen unterschiedlich tokenisiert werden können (bspw. Abkürzungen als zwei oder mehr Tokens wie u. a. m. vs. solche, die als ein Token realisiert werden, wie usw.). vgl. dazu beide Beispiele. In Fällen, in denen keine Dudenrichtlinie zugeordnet werden kann, wird immer nach einem Punkt segmentiert.
    Faksimilédiplcleannorm
    u.
    ſ.
    w.
    [3 Token]
    u.
    s.
    w.
    [3 Token]
    usw.
    [1 Token]

Graphematik

Die historische graphematische Repräsentation wird an die aktuelle orthographische Norm angepasst.

diplnorm
kreutterKräuter

Lautzeichen

  • Die Zeichen für ‘I’ und ‘J’ sind in Fraktur-Texten grafisch nicht immer voneinander unterscheidbar. Konvention in RIDGES ist daher, das Zeichen in der dipl als J darzustellen und erst in der norm-Ebene das Zeichen individuell nach moderner Orthografie zu interpretieren und entsprechend anzupassen.
    Faksimilédiplcleannorm
    Abbildung eines Buchausschnitts, zeigt das Wort 'Ist' mit großem I, das einem großen J gleichtJſtJstIst
  • Der Digraph ij für Lateinisch “ii” wird in der norm zu ii normalisiert.
cleannorm
LapatijsLapatiis
  • Das lange “ſ” wird durch ein reguläres s ersetzt.
    diplcleannorm
    LeſerLeserLeser

Diakritika

  • Alle Akzente werden übernommen.

    diplcleannorm
    immanéimmanéimmané
    QuòdQuòdQuòd
    vitâvitâvitâ
  • Superskribiertes “o” wird in der clean- und norm-Ebene nicht mehr realisiert und durch den zugrundeliegenden Vokal ersetzt:

    Faksimilédiplcleannorm
    Abbildung eines Buchausschnitts, zeigt das Wort 'zů' mit Diakritikum auf dem 'u'zuzu
  • Umlaute mit superskribiertem “e” werden in der clean- und norm-Ebene wie moderne Umlaute des Deutschen realisiert.

    Faksimilédiplcleannorm
    Abbildung eines Buchausschnitts, zeigt das Wort 'genaͤdiger' mit superkribiertem 'e' über dem 'a'genaͤdigergenädigergnädiger
  • In der clean-Ebene aufgelöste Nasalstriche stellen nicht immer den korrekten zugrunde liegenden Nasal dar und sollten ggf. in der norm-Ebene korrigiert werden.

Faksimilédiplcleannorm
Abbildung eines Buchausschnitts, zeigt das Wort 'om̃ia' mit Nasalstrich über dem 'm'om̃iaomniaomnia
Abbildung eines Buchausschnitts, zeigt das Wort 'samẽ' mit Nasalstrich über dem 'e'ſamẽsamenSamen
Abbildung eines Buchausschnitts, zeigt das Wort 'eynẽ' mit Nasalstrich über dem 'e'eynẽeynemeinem
Abbildung eines Buchausschnitts, zeigt das Wort 'him̃el' mit Nasalstrich über dem 'm'him̃elhimmelHimmel
Abbildung eines Buchausschnitts, zeigt das Wort 'iñ' mit Nasalstrich über dem 'n'innin
  • Das Dicit-Zeichen wird in der clean- und norm-Ebene mit “der” ersetzt.

    Faksimilédiplcleannorm
    Abbildung eines Buchausschnitts, zeigt das Wort 'oder' mit Dicit-Zeichenoderoder
  • Das -Zeichen wird in der clean- und norm-Ebene durch us ersetzt.

    Faksimilédiplcleannorm
    Abbildung eines Buchausschnitts, zeigt das Wort 'deꝰ'deꝰdeusdeus
  • Dieses Zeichen wird durch er ersetzt.

    Faksimilédiplcleannorm
    Abbildung eines Buchausschnitts, zeigt das Wort 'v̉tzerẽ'v̉tzerẽvertzerenverzehren

Ligaturen

Ligaturen werden in der norm augelöst.

diplcleannorm
hæchaechaec
  • Nach modernen Orthografieregeln wird für “sz” das ß verwendet.
    Faksimilédiplcleannorm
    Abbildung eines Buchausschnitts, zeigt das Wort 'Uberfluſz' mit einer Ligatur aus 'ſ' und 'z'UberfluſzUberfluszÜberfluss
  • Das kaufmännische Und (&) wird in der norm-Ebene beibehalten.

    Faksimilédiplcleannorm
    &&&
  • Folgendes beteutet “etc.”. Es wird als “&” und “c.” transkribiert und in der norm-Ebene zu etc. normalisiert. .

diplcleannorm
&
c.
[2 Token]
&
c.
[2 Token]
etc.
[1 Token]

Satzzeichen

  • In der norm wird die clean-Normalisierung des “modifizierenden Pluszeichen” (˖) erhalten.

    diplcleannorm
    ˖::
  • Das Absatzzeichen () bleibt in der norm-Ebene erhalten.

    diplcleannorm

Zahlen

Bei Zahlen werden in der norm-Ebene alle Konventionen der dipl- und clean-Ebene übernommen.

Sonderzeichen

  • Intervenieren innerhalb eines Wortes Sonderzeichen, dann werden die Sonderzeichen in der norm-Ebene ignoriert und das unterbrochene Wort zusammengeschrieben.
    Faksimilédiplcleannorm
    Abbildung eines Buchausschnitts, zeigt 'Glo-'
    Abbildung eines Buchausschnitts, zeigt zwei Zeichen vor 'ver Graſſ.'
    Glo-


    ver
    Graſſ
    .
    [6 Token]
    Glo-✠

    ver
    Grass
    .
    [5 Token]
    Glover
    Grass
    .
    [3 Token]

Phonologie

Formen, die in phonologischer Hinsicht fnhd. oder dialektalen Lautstand aufweisen, werden in der norm den (standard-)nhd. Entsprechungen angepasst.

diplcleannormBeschreibung
HellenpeinHellenpeinHöllenpeinDialektale Entrundung (md.)
wänlinwänlinWännleinDiphthongierung
beedebeedebeideDialektale Monophthongierung
hänget
lehret
hänget
lehret
hängt
lehrt
Synkope

Morphologie

  • Fehlende oder abweichende Morpheme werden hinzugefügt oder durch im NHD grammatische Morpheme ersetzt:
diplcleannorm
wordenwordengeworden
das kal Hauptdas kal Hauptdas kahle Haupt
in die Nasenin die Nasenin die Nase
bei ſchweinem fleiſchbei schweinem fleischbei schweinenem Fleisch
  • Abweichungen der Flexionsklasse werden normalisiert:

    diplcleannormBeschreibung
    MannenMannenMännernÜbergang von der schwachen zur starken Flexion.
    bububauteÜbergang von der starken zur schwachen Flexion.
    gennentgennentgenanntEinführung des Rückumlauts.
    gebauengebauengebautÜbergang von der starken zur schwachen Flexion.
  • Es erfolgt keine Anpassung des Genus
    diplcleannorm
    das Milzdas Milzdas Milz

Wortbildung

  • Ausgestorbene oder nicht mehr gebräuchliche Wortbildungsmorpheme werden nach Möglichkeit durch entsprechende nhd. Bildungen ersetzt. (siehe Beispieltabelle am Schluss)
    diplcleannorm
    halben [Postposition]halbenhalber
    stachelechtstachelechtstachelig

Morphosyntax

  • Im standarddt. prinzipiell grammatische Morpheme werden nicht normalisiert, auch wenn sie morphosyntaktisch im Standarddt. durch ein anderes Morphem ersetzt werden müssten.
    diplcleannormBeschreibung
    [Heylt] die verſehrte Daͤrmelein[Heylt] die versehrte Därmelein[Heilt] die versehrte DärmleinKeine Anpassung der Adjektivflexion in der definiten Nominalphrase.
    (nicht: die versehrten Därmelein)

Syntax

  • Die Positionen der Konstituenten werden nicht normalisiert.
  • Aus standarddt. Sicht ungrammatische Elemente werden nicht entfernt.
  • Aus standarddt. Sicht fehlende Konstituenten (z.B. Artikel) werden nicht eingefügt.
  • Aus standarddt. Sicht ungrammatische Kongruenzabweichungen werden nicht normalisiert.
  • Aus standarddt. Sicht ungrammatische Kasusrektion wird nicht normalisiert.

Lexik

  • Aus standarddt. Sicht nicht mehr oder anders gebrauchte Lexeme werden nicht durch die standarddt. Entsprechung normalisiert. Ggf. orthografisch normalisieren.
diplcleannormBeschreibung
HornungHornungHornungOberdeutsches Wort für “Februar”.
  • Die Existenz eines standarddeutschen Lexems wird durch die Lemmatisierung im Duden definiert.
  • Die Existenz (und graphematische Repräsentation) ausgestorbener Lexeme wird durch die Lemmatisierung in Grimms Wörterbuch vorgegeben.
diplcleannorm
VergeſzVergeſzVergess

Pragmatik

  • Aus standarddt. Sicht ungewöhnlich realisierte kommunikative Funktionen (z.B. Anreden, Ehrbezeugungen, wörtliche Zitationskennzeichnungen) werden nicht normalisiert.