Korpora - Aufbereitung des Rohkorpus |
|
|
|
EditionBevor ein Rohkorpus zu einem für linguistische Untersuchungen brauchbaren Korpus gemacht werden kann, muss es in formaler Hinsicht aufbereitet und korrigiert werden. Zuverlässigkeit der Texte ist für spätere Analysen von großer Bedeutung:
Textmaterial darf nach der Edition keine drucktechnischen oder anderweitigen Kodierungen und Kennzeichnungen mehr enthalten, die für die spätere Analyse nicht notwendig sind bzw. den Einsatz von gängigen Analyseprogrammen generell stören könnten:
erste Phase der Edition Säubern der Texte von beim Scannen nicht erkannten Zeichen bzw. von den Angaben, die den Texten schon in den Zeitungsverlagen bei ihrem Transfer in eine elektronische Form hinzugefügt worden und deshalb vor allem für ihre Herkunft spezifisch sind:
La Vanguardia: Druckanweisungen waren aus den Texten zu löschen und bei der Konvertierung verlorengegangene Zeichen waren zu rekonstruieren. Kollationierung mit den gedruckten Ausgaben wurde vorgenommen - print-Ausgaben der Zeitungen mussten vorhanden sein zweite Phase der Edition Druckfehler: könnten für Untersuchungen interessant sein, wurden nicht korrigiert, wenn sie auch in der gedruckten Zeitungsausgabe erscheinen, wurden mit Hilfe von {sic} als Fehler markiert Zeilenschaltung: mit der Zeilenschaltung hängt die Silbentrennung zusammen, könnte selbst Gegenstand einer Untersuchung sein Bei online verfügbaren Zeitungen scheint Silbentrennung keine Rolle mehr zu spielen, müsste aber gegebenen Falls überprüft werden. Im Korpus „Europawahlen 1994“ entspricht die Zeilenschaltung bisher nur bei La Vanguardia dem Original - war in der Magnetbandversion vorhanden. Bei CD-ROM Versionen von Le Monde und vom Corriere della Sera war Zeilenschaltung nicht vorhanden, Disambiguierung der in den Texten mit doppelter Funktion erscheinenden Zeichen Punkt, Komma und die einfachen und doppelten Anführungszeichen werden von Textanalyseprogrammen in den meisten Fällen per default als Wortgrenzen interpretiert
In beiden Fällen dürfen diese Zeichen aber nicht als Wortgrenzen angesehen werden eine Unterscheidung zwischen den beiden Funktionen muss eingeführt werden
Wortformen: in der Korpuslinguistik wird unter ‘Wort’ eigentlich immer eine ‘Wortform’ verstanden: „an unbroken succession of letters“ (Sinclair 1991: 28), die von Leerstellen oder der Zeichensetzung begrenzt wird ‘Lemma’: Grund- oder Lexikonform, auf die die verschiedenen Formen eines Wortes bezogen sind bzw. im Rahmen der Lemmatisierung eines Korpus bezogen werden im Italienischen, Französischen und Spanischen reicht aber die in der Korpuslinguistik übliche Definition von Wortform nicht unbedingt aus: zahlreiche Komposita, die z. T. als eine einzige Wortform realisiert werden, z. T. als zwei, z. T. sind die jeweiligen Komponenten auch durch Bindestrich getrennt, manchmal erscheint sogar die gleiche Form einmal in der einen, das andere Mal in der anderen Version, z. B. ex-aequo ex aequo - Bindestrich wurde als Wortgrenze behandelt bei der vor allem im Französischen üblichen Verwendung von Bindestrichen bei Kombinationen wie c’est-à-dire wurde Bindestrich ebenfalls als Wortgrenze behandelt Kontraktionen von Präpositionen mit dem bestimmten Artikel und enklitische Pronomen und Partikel: die kontrahierten Formen wurden in der Phase der Edition mit Hilfe des Zeichens +, das ebenfalls zur Wortformengrenze erklärt werden kann, in ihre Einzelteile zerlegt: fornir+glie+la C’, est, à und dire bzw. fornir, glie und la wurden also als jeweils eigenständige Form behandelt. |
|
Copyright © 2007 Elisabeth Burr ![]() |
|