Korpora - Aufbereitung des Rohkorpus

 

Edition

Bevor ein Rohkorpus zu einem für linguistische Untersuchungen brauchbaren Korpus gemacht werden kann, muss es in formaler Hinsicht aufbereitet und korrigiert werden.

Zuverlässigkeit der Texte ist für spätere Analysen von großer Bedeutung:

„The caution voiced by makers of concordances bears repeating here: the reliability of the base text is crucial to the quality of the results obtained from it.“ (Lancashire 1996: 9).

Textmaterial darf nach der Edition keine drucktechnischen oder anderweitigen Kodierungen und Kennzeichnungen mehr enthalten, die für die spätere Analyse nicht notwendig sind bzw. den Einsatz von gängigen Analyseprogrammen generell stören könnten:

Beispiel

  • ein Korpus soll nicht nur für eine einzige Untersuchung verwendbar sein
  • soll der wissenschaftlichen Öffentlichkeit zugängig gemacht werden
  • es ist nicht vorherbestimmbar, welche Programme bei Untersuchungen zum Einsatz kommen
  • muss so weit wie möglich die von John Sinclair geforderte clean-text policy (cf. Sinclair 1991: 21) beachtet
  • Material muss in reines ASCII-, DOS-Text-Format oder heute in UNICODE konvertiert werden
  • damit es von den für Textverarbeitungsprogramme spezifischen Formatierungen befreit wird

erste Phase der Edition

Säubern der Texte von beim Scannen nicht erkannten Zeichen bzw. von den Angaben, die den Texten schon in den Zeitungsverlagen bei ihrem Transfer in eine elektronische Form hinzugefügt worden und deshalb vor allem für ihre Herkunft spezifisch sind:

  • dem Erscheinungsbild dienende Trennlinien etc. - wurden vollständig aus dem Textmaterial entfernt
  • Datenbankvariablen - wurden erhalten, da es sich dabei um auf den Textinhalt bezogene Schlagwörter handelt und sie später von Nutzen sein könnten; sie wurden aber zu nicht prozessierbarem Text erklärt:
    • {Genere: supplementobis}
    • {Argomento: medicina, stomaco / maternita', controllo nascite}

La Vanguardia: Druckanweisungen waren aus den Texten zu löschen und bei der Konvertierung verlorengegangene Zeichen waren zu rekonstruieren.

Kollationierung mit den gedruckten Ausgaben wurde vorgenommen - print-Ausgaben der Zeitungen mussten vorhanden sein

zweite Phase der Edition

Druckfehler: könnten für Untersuchungen interessant sein, wurden nicht korrigiert, wenn sie auch in der gedruckten Zeitungsausgabe erscheinen, wurden mit Hilfe von {sic} als Fehler markiert

Zeilenschaltung: mit der Zeilenschaltung hängt die Silbentrennung zusammen, könnte selbst Gegenstand einer Untersuchung sein

Bei online verfügbaren Zeitungen scheint Silbentrennung keine Rolle mehr zu spielen, müsste aber gegebenen Falls überprüft werden.

Im Korpus „Europawahlen 1994“ entspricht die Zeilenschaltung bisher nur bei La Vanguardia dem Original - war in der Magnetbandversion vorhanden. Bei CD-ROM Versionen von Le Monde und vom Corriere della Sera war Zeilenschaltung nicht vorhanden,

Disambiguierung der in den Texten mit doppelter Funktion erscheinenden Zeichen Punkt, Komma und die einfachen und doppelten Anführungszeichen werden von Textanalyseprogrammen in den meisten Fällen per default als Wortgrenzen interpretiert

  • das Komma wird aber auch als Dezimaltrennzeichen, der Punkt wird zur Zifferngruppierung herangezogen
  • in Sportberichten italienischer und spanischer, nicht aber französischer Zeitungen, werden Minuten als einfache und Sekunden als doppelte Anführungszeichen notiert

In beiden Fällen dürfen diese Zeichen aber nicht als Wortgrenzen angesehen werden

eine Unterscheidung zwischen den beiden Funktionen muss eingeführt werden

  • Komma als Dezimaltrennzeichen                 \
  • Punkt als Zifferngruppierung                        #
  • ' in der Bedeutung von Minute                     £
  • " in der Bedeutung von Sekunde                 $

Wortformen: in der Korpuslinguistik wird unter ‘Wort’ eigentlich immer eine ‘Wortform’ verstanden: „an unbroken succession of letters“ (Sinclair 1991: 28), die von Leerstellen oder der Zeichensetzung begrenzt wird

‘Lemma’: Grund- oder Lexikonform, auf die die verschiedenen Formen eines Wortes bezogen sind bzw. im Rahmen der Lemmatisierung eines Korpus bezogen werden

im Italienischen, Französischen und Spanischen reicht aber die in der Korpuslinguistik übliche Definition von Wortform nicht unbedingt aus:

zahlreiche Komposita, die z. T. als eine einzige Wortform realisiert werden, z. T. als zwei, z. T. sind die jeweiligen Komponenten auch durch Bindestrich getrennt, manchmal erscheint sogar die gleiche Form einmal in der einen, das andere Mal in der anderen Version, z. B. ex-aequo ex aequo - Bindestrich wurde als Wortgrenze behandelt

bei der vor allem im Französischen üblichen Verwendung von Bindestrichen bei Kombinationen wie c’est-à-dire wurde Bindestrich ebenfalls als Wortgrenze behandelt

Kontraktionen von Präpositionen mit dem bestimmten Artikel und enklitische Pronomen und Partikel: die kontrahierten Formen wurden in der Phase der Edition mit Hilfe des Zeichens +, das ebenfalls zur Wortformengrenze erklärt werden kann, in ihre Einzelteile zerlegt:

fornir+glie+la

C’, est, à und dire bzw. fornir, glie und la wurden also als jeweils eigenständige Form behandelt.


 
 
Copyright © 2007 Elisabeth Burr 02.07.2007 8:43 elisabeth.burr@uni-leipzig.de