Heutige Korpuslinguistik

zitieren Sie bitte wie folgt:
Elisabeth Burr (2000): "Die Korpuslinguistik", <www.uni-duisburg.de/FB3/ROMANISTIK/PERSONAL/Burr/corpus/lecture/Korpuslinguistik.htm> oder <www.fb10.uni-bremen.de/homepages/burr/corpus/lecture/Korpuslinguistik.htm>

2. Die heutige Korpuslinguistik

Die heutige Korpuslinguistik grenzt sich v.a. gegen Chomsky's Ansatz ab, der noch immer in großem Maße die heutige Linguistik bestimmt.

2.1 Hintergrund

2.1.1 Chomsky’s Ansatz

Für den Ansatz von Chomsky sind vor allem die beiden folgenden Schriften zu nennen:

Chomsky, Noam (1959): „«Verbal behavior». By B. F. Skinner. (The Century Psychology Series.) Pp. viii, 478. New York: Appleton-Century-Crofts, Inc., 1957“, in: Language 35: 26-58.

Chomsky, Noam (1965): Aspects of the Theory of Syntax. Cambridge, Massachusetts: M.I.T. Press.

Chomsky geht aus von einem

ideal speaker-listener, in a completely homogeneous speech-community, who knows its language perfectly and is unaffected by such grammatically irrelevant conditions as memory limitations, distractions, shifts of attention and interest, and errors (random or characteristic) in applying his [sic] knowledge of the language in actual performance. (Chomsky 1965: 3).

Dieses (einzel-) sprachliche Wissen, „the speaker-hearer’s knowledge of his language“ (Chomsky 1965: 4), wird von Chomsky competence genannt.

Es basiert auf einem angeborenen, in Form einer universellen Grammatik zu beschreibenden intuitiven Wissen, den innate ideas (vgl. hierzu v.a. Chomsky 1959: 39-44), und liegt dem tatsächlichen situationellen Sprechen, der performance zugrunde. Eine generative Grammatik soll dieses einzelsprachliche Wissen dann auf neutrale Art und Weise charakterisieren:

It attempts to characterize in the most neutral possible terms the knowledge of the language that provides the basis for actual use of language by a speaker-hearer. (Chomsky 1965: 9).

Auch Chomsky geht also davon aus, dass eine Grammatik die Voraussetzung für das Sprechen ist. Das situationelle Sprechen oder die Performanz kann erst dann untersucht werden, wenn die generative Grammatik bekannt ist, und nur in dem Maße, wie sie bekannt ist:

There seems to be little reason to question the traditional view that investigation of performance will proceed only so far as understanding of underlying competence permits. (Chomsky 1965: 10).

Aus der direkten Beobachtung der Performanz lassen sich nach Chomsky Erkenntnisse über die Grundlagen des sprachlichen Verhaltens, über die Kompetenz, dagegen gerade nicht ableiten:

we can predict that a direct attempt to account for the actual behavior of speaker listener, and learner, not based on a prior understanding of the structure of grammars, will achieve very limited success (Chomsky 1959: 57).

Die mutmaßliche Unmöglichkeit der direkten Beobachtung des stillschweigenden Wissens und damit der einzelsprachlichen Kompetenz ist aber nicht der einzige Grund, warum Chomsky sich einem Ausgehen von der Performanz gegenüber ablehnend verhält. Hinzu kommt vielmehr noch Chomsky’s Sicht von der Sprachwissenschaft selbst. Seiner Meinung nach handelt es sich nämlich bei der Sprachwissenschaft um eine mentalistische Wissenschaft, die eine mentale Realität erforschen will. Und wenn sie eine ernstzunehmende Wissenschaft sein will, dann kann sie dabei gerade nicht vom tatsächlichen Verhalten ausgehen:

linguistic theory is mentalistic, since it is concerned with discovering a mental reality underlying actual behavior. Observed use of language or hypothesized dispositions to respond, habits, and so on, may provide evidence as to the nature of this mental reality, but surely cannot constitute the actual subject matter of linguistics, if this is to be a serious discipline. (Chomsky 1965: 4)

Nach Chomsky führt stattdessen nur die Introspektion und das Abfragen der sprachlichen Intuition des native speaker’s zur Erkenntnis dieser mentalen Realität und damit der Kompetenz:

to give [...] priority to introspective evidence and to the linguistic intuition of the native speaker (Chomsky 1965: 20).

Chomsky wendet sich damit insgesamt gegen zwei grundlegende Theoreme der frühen Korpuslinguistik. Diese besagen:

natürliche Sprachen sind eine endliche Sammlung von Sätzen sind, die gesammelt und aufgezählt werden können,
eine linguistische Theorie ist allein auf der Grundlage von Korpora aufzustellen.

Chomsky setzt dem richtigerweise entgegen, dass

die Zahl der Sätze einer Sprache unendlich ist. Endlich ist dagegen die Zahl der syntaktischen Regeln, die dieser unendlichen Zahl von Sätzen zugrundeliegt. Anstatt also alle Sätze einer Sprache aufzuzählen, müssen diese Regeln in einer Grammatik beschrieben werden;
Korpora nicht ausreichen, um eine linguistische Theorie zu erstellen, denn sie sagen uns nichts darüber, ob ein Satz grammatisch oder ungrammatisch ist, bzw. ob bestimmte Sätze möglich sind, auch wenn sie in einem Korpus nicht enthalten sind.

2.1.2 Introspektion

Wenn in einem Korpus z.B. nicht der folgende Satz erscheint:

*Elle telephonne des lettres à Charles

Elle donne des lettres à Charles,

woher wissen wir dann, dass er ungrammatisch ist, wenn das Korpus doch Sätze wie die folgenden enthält:

Elle écrit des lettres à Charles

Elle doit des lettres à Charles

Zudem helfen uns Korpora nicht, ambige Strukturen wie etwa die folgenden zu disambiguieren:

Toni e Fido si sedevano - cominciò a leggere un libro

Toni e Fido si sedevano - cominciò a mangiare una scatola di cibo per cani.

Nur mit Hilfe von Introspektion wissen wir, dass es sich bei Fido um einen Hund handeln muss und dass sich deshalb cominciò a leggere un libro im ersten Satz auf Toni beziehen muss, cominciò a mangiare una scatola di cibo per cani im zweiten Satz dagegen auf Fido.

Introspektion ist also wichtig. Das Problem bei Chomsky ist aber, dass er ins andere Extrem fällt und die Daten grundsätzlich aus der Betrachtung ausschließt und stattdessen alles auf die Introspektion setzt. Dem setzt die heutige Korpuslinguistik entgegen, dass die Introspektion idiosynkratisch sei, d.h. vom Individuum bestimmt, und dass keine Individuum den Gebrauch der Sprache im Ganzen kennt, weder bei sich, noch bei den anderen. Vgl. hierzu etwa Renouf, Antoinette (1993): "Sticking to the text: a corpus linguist's view of language", in: Aslib Proceedings 45 (5): 131-136.

A description derived by introspection will tend to be idiosyncratic and partial, since no individual has total awareness of how they or others use language. A description based on the observation of appropriate corpus data, on the other hand, can provide a broader view of language use, including statements about the relative typicality of individual features based on their frequency of occurrence in the corpus. (Renouf 1993: 131).

Gegen die Introspektion als alleinige Grundlage der linguistischen Theorie spricht weiterhin, dass

auf der Introspektion beruhende Urteile eigentlich nicht verifizierbar sind
durch Introspektion gewonnene Daten künstlich sind
menschliche Wesen nur eine ganz vage Vorstellung von der Frequenz bestimmter Konstruktionen oder Wörter haben.

Die Untersuchung von Korpora ist dagegen eher wissenschaftlich, da ihre Ergebnisse objektiv nachvollziehbar und verifizierbar sind, d.h. jede/r kann die Untersuchung wiederholen. Zudem hat sich längst erwiesen, dass das Sprechen gar nicht so ungrammatisch ist, wie Chomsky das gesehen hat, bzw. nicht alle Phänomene auf Verstöße gegen die Grammatik zurückzuführen sind, sondern z.B. der Mündlichkeit zuzuschreiben sind und deshalb ganz anders beurteilt werden müssen. Quantitäten sagen zudem etwas über den tatsächlichen Gebrauch aus. Und seit es Computer gibt, Daten also nicht mehr manuell erhoben, ausgezählt und geordnet werden müssen, hat auch die Kritik, Korpusuntersuchungen seien sehr zeitintensiv, teuer und fehleranfällig, die mit Blick auf die manuelle Untersuchung von großen Korpora berechtigt war, ihre Berechtigung eingebüßt.

2.1.3 Korpora

Auch die Korpora selbst haben sich geändert. So waren die ganz frühen lexikographischen Korpora zur Erstellung von Wörterbüchern, die dialektologischen Korpora zur Herstellung von Sprachatlanten und die grammatischen Korpora zur Erstellung von Grammatiken allesamt Belegsammlungen in Form von Sätzen, Wörtern oder kurzen Textpassagen, die manuell erhoben und zu ihrer Sortierung auf einzelne Zettel übertragen wurden. Einige Beispiele hierzu:

Der Lexikograph James Murray soll, wie Jan Svartvik ausführt, bei seiner Arbeit am Oxford English Dictionary über 4 Millionen slips of paper zur Verfügung gehabt haben und Otto Jespersen sagt in dem ebenfalls bei Svartvik angeführten Zitat von sich selbst, daß er, obwohl er bei und nach der Veröffentlichung seiner Bücher viele Zettel weggeworfen hat, noch immer zwischen 3 und 400.000 Zettel mit bis dahin unverarbeitetem Material in seinen Schubladen aufbewahrt (cf. Svartvik 1992: 7).

Spätere Korpora, wie etwa die bei Koch/Oesterreicher (1990: bes. 30-49) aufgeführten Korpora zur gesprochenen Sprache in der Romania bestehen zwar aus ganzen Gesprächen, sie sind aber relativ klein. Wenn wir daran denken, dass sie zuerst manuell transkribiert werden mussten und dann wiederum nur manuell untersucht werden konnten, ist das nicht verwunderlich.

Wenn auch die Zeit der manuellen Korpuserstellung noch immer nicht ganz vorbei ist, so ist doch die Zeit ihrer manuellen Untersuchung vorbei, d.h. sobald Korpora in elektronische Form überführt wurden, lassen sie sich mit Hilfe des Computers untersuchen. Letztere Einsicht führt längst dazu, dass heute immer mehr auch die früher einmal erstellten und bisher nur in schriftlicher Form vorliegenden Korpora digitalisiert werden.

The long history of painfully compiled language corpora is over and its best products are joining the new group of computer corpora (Francis 1992: 30).

Francis bezieht sich hier darauf, daß ursprünglich in traditioneller Form vorliegende Korpora wie z.B. der S(urvey of) E(nglish) U(sage) oder Wörterbücher wie das Oxford English Dictionary in computerlesbare Form überführt werden. Vgl. hierzu auch Quirk/Svartvik (1979: bes. 211-215). Einen kurzen Überblick über den SEU gibt auch Francis selbst (cf. Francis 1992: 29).

2.1.4 Korpuslinguistische Tradition

Die korpuslinguistische Tradition ist zudem auch während der Zeit, als die Sprachwissenschaft fast ausschließlich von der generativen Grammatik und ihrer Korpusfeindlichkeit beherrscht wurde, nie ganz abgebrochen, auch wenn Chomsky’s Kritik an der Korpuslinguistik der amerikanischen Strukturalisten bewirkt hat, daß sie für lange Zeit in den Hintergrund getreten ist (cf. etwa Leech 1992: 105). So hat etwa die Phonetik niemals aufgegeben, ihre Hauptinformationen aus natürichen Daten zu beziehen. Die Aussagen von Menschen sind schließlich viel zu ungenau. Auch die Spracherwerbsforschung kam nie ohne die Beobachtung von Kindern aus. Achtzehn Monate alte Kinder können schließlich nicht danach gefragt werden, ob muh-muh ein Verb oder ein Substantiv ist. Erst wenn wir ein Sprachbewußtsein entwickelt haben, können wir aufgrund von Introspektion Urteile fällen. Und die ersten maschinenlesbaren Sprachkorpora, die heute noch Grundlage vieler Untersuchungen sind, sind in den 60er Jahren entstanden. Zu nennen ist hier vor allem das berühmt Brown Corpus, mit dessen Erstellung Nelson Francis und Henry Kucera 1961 begannen.

2.2 Grundlagen

Erst die Verbreitung von Computern seit den 80er Jahren hat aber der Korpuslinguistik zum wirklichen Durchbruch verholfen. Raquaiya Hasan (1992) spricht diesbezüglich denn in "Rationality in everyday talk: From process to system", in: Svartvik, Jan (ed.): Directions in Corpus Linguistics. Proceedings of the Nobel Symposium 82, Stockholm, 4-8 August 1991 (= Trends in Linguistics. Studies and Monographs 65): Berlin/New York: Mouton de Gruyter 257-307 auch von einer Revolution, die im Unterschied zu der durch Chomsky verursachten fast unbemerkt vonstatten ging:

the revolution that is corpus linguistics occurred without any noticeable flourishes. (Hasan 1992: 257).

2.2.1 Computerlesbare Korpora

Unter der heutigen Korpuslinguistik wird also zwar wie bei Aijmer, Karin/Altenberg, Bengt (1991): "Introduction", in: Aijmer, Karin/Altenberg, Bengt (eds.): English Corpus Linguistics. Studies in Honour of Jan Svartvik. London/New York: Longman 1-6 ausgeführt, allgemein die Untersuchung von Sprache auf der Grundlage von Textkorpora verstanden:

Corpus linguistics can be described as the study of language on the basis of text corpora. (Aijmer/Altenberg 1991: 1).

mit Korpora sind dabei aber eigentlich immer computerlesbare Korpora gemeint.

Solche computerlesbaren Korpora sind Sammlungen von natürlichem Sprachmaterial, d.h. von Texten, die tatsächlich in einem wirklichen sozialen Kontext und ohne Eingriff von Linguistinnen oder Linguisten schriftlich oder mündlich geäußert worden sind. Von Belegsammlungen unterscheiden sie sich dadurch, dass sie nicht nur die für ein bestimmtes sprachliches Phänomen im Sprechen gefundenen und damit differentiell gesammelten Belegstellen enthalten, sondern dass das Sprechen als solches aufgenommen wird. Nelson Francis, der wie gesagt zusammen mit Henry Kucera (1979) das erste Computerkorpus erstellt hat, nämlich das schon genannte Brown Corpus, hat denn auch Korpora in "Problems of Assembling and Computerizing Large Corpora", in: Bergenholtz, Henning/Schaeder, Burkhard (eds.): Empirische Textwissenschaft. Aufbau und Auswertung von Text-Korpora (= Monographien Linguistik und Kommunikationswissenschaft 39). Königstein/Ts.: Scriptor 110-123 definiert als:

a collection of texts assumed to be representative of a given language, dialect, or other subset of a language, to be used for linguistic analysis (Francis 1979: 110, 1992: 17),

wobei ihm gerade letzteres zur Unterscheidung von anderen Arten von Sammlungen besonders wichtig erscheint. Erstellt werden Korpora also zumindest unter Anwendung von Kriterien, die gewährleisten sollen, dass solche Korpora für eine bestimmte Art des Sprechens repräsentativ und für sprachwissenschaftliche Untersuchungen geeignet sind.

Die Einschränkung ist hier angebracht, denn den großen Korpora der IBM und anderer Sprachdatenverarbeitungsbereiche liegen nicht unbedingt reflektierte linguistische Kriterien zugrunde. Das Interesse gilt nämlich hier vor allem der Menge an Daten, auf deren Grundlage die statistische Vorhersagbarkeit von Wortkombinationen etwa oder Strukturen geprüft werden kann, um mit Hilfe der Ergebnisse dann die Entwicklung von Spracherkennungssystemen voranzutreiben. Welche Ergebnisse mit der auf statistischen Erkenntnissen beruhenden Vorhersehbarkeit erzielt werden können, läßt sich am neuen Microsoft Office 2000 erkennen, wo die Software selbst in einem aus verschiedenen Sprachen bestehenden Word-Dokument diese unterschiedlichen Sprachen recht zuverlässig erkennt, ohne dass der oder die Schreibende dazu Angaben machen muß.

2.2.2 Untersuchungsgegenstand

Auf der Grundlage von für eine bestimmte Art des Sprechens repräsentativen und für sprachwissenschaftliche Untersuchungen geeigneten Korpora untersucht die Korpuslinguistik, wie Jan Aarts und Theor van den Heuvel (1985) in "Computational tools for the syntactic analysis of corpora", in: Linguistics 23: 303-335 sagen, den realen Sprachgebrauch:

Corpus linguistics studies language use. Unlike several other branches of linguistics, corpus linguistics does not study POTENTIAL linguistic events or sentences that have originated in a 'laboratory' environment." (Jan Aarts/van den Heuvel 1985: 306).

Das Ziel ist dabei zwar generell, ein besseres Verständnis vom Funktionieren der menschlichen Sprache: "to reach a better understanding of the workings of human language" (Aijmer/Altenberg 1991: 3), jedoch nicht an erster Stelle von der Sprache im Sinne von Sprachfähigkeit oder faculté du langage, sondern, wie Jan Aarts und Theor van den Heuvel weiter aus-führen. bezogen auf die einzelnen historischen Sprachen selbst:

und zwar unter Berücksichtigung ihrer inneren Variation:

Since corpus linguistics deals with actual language use, it cannot help dealing also with language varieties." (Jan Aarts/van den Heuvel 1985: 306).

Welche Varietäten damit konkret gemeint sind, zeigt das folgende Zitat aus Hockey, Susan/Walker, Donald (1993): "Developing Effective Resources for Research on Texts: Collecting Texts, Tagging Texts, Cataloguing Texts, Using Texts, and Putting Texts in Context", in: Literary & Linguistic Computing 8: 235-242:

Indeed, the well-established concepts of dialect, genre, style, register, and the like take on a new and particularly significant perspective in a computational context. (Hockey/Walker 1993: 240).

Für viele Korpuslinguistinnen und -linguisten ist natürlich das Ziel letztendlich doch die Erforschung einer mentalen Realität. So definiert Wallace Chafe z.B. einen Korpuslinguisten bzw. eine Korpuslinguistin folgendermaßen: "I would like to think that it is a linguist who tries to understand language, and behind lan-guage the mind, by carefully observing extensive natural samples of it and then, with insight and imagination, constructing plausible understandings that encompass and explain those observations." (Chafe 1992: 96).

2.2.3 Der Computer

Die heutige Korpuslinguistik ist also maßgeblich von den Möglichkeiten des Computers bestimmt. Deshalb soll sie nach Leech genauer und nicht zuletzt, um sie von der frühen Korpuslinguistik zu unterscheiden, die ohne Computer betrieben wurde, als computer corpus linguistics (CCL) bezeichnet werden (cf. Leech 1992: 106). Gerade für diese Art von Linguistik sieht John M. Sinclair (1992) in: "The automatic analysis of corpora", in: Svartvik, Jan (ed.): Directions in Corpus Linguistics. Proceedings of the Nobel Symposium 82, Stockholm, 4-8 August 1991 (= Trends in Linguistics. Studies and Monographs 65): Berlin/New York: Mouton de Gruyter 379-397 eine intellektuell überaus fruchtbare Zukunft voraus:

The advent of computers has improved the quality of many scientific disciplines in recent years, but in none of them is the effect so profound as it will be in the study of language. For linguistics will see quite new methodologies and argumentations, and the relationship between speculation and fact will alter sharply. (Sinclair 1992: 379).

2.3 Korpuslinguistik und Computerkorpuslinguistik

Grundlage dieser Computerkorpuslinguistik sind also computerlesbare Sprachkorpora. Auf dieser gemeinsamen Basis agieren aber zwei unterschiedlich geprägte korpuslinguistische Schulen.

2.3.1 CCL und Computerlinguistik

So befaßt sich ein Zweig mit der Erstellung formaler Grammatiken, die selbst wieder bei der computationellen Analyse von Korpora eingesetzt werden. Der Weg geht dabei von auf der intuitiven Kenntnis der Sprache basierenden und in Form einer Grammatik ausgedrückten Hypothesen hinsichtlich der grammatischen Sätze einer Sprache zu einer auf der Beobachtung des Sprachgebrauchs gründenden, d.h. an einem Korpus überprüften Grammatik, die die akzeptablen Sätze beschreibt (cf. Jan Aarts 1991). Eine solche Grammatik soll dann schließlich als Parser computerlesbare Korpora in linguistischer Hinsicht so weit wie nur möglich automatisch analysieren, was so viel bedeutet, wie sie in grammatischer, syntaktischer, phonetischer oder semantischer Hinsicht etc. zu annotieren (cf. z.B. Leech 1991). Ein Beispiel, wie eine solche Annotation aussieht, finden wir hier.

Da es dabei zu einer auf hoher Ebene angelegten Interaktion von Mensch und Maschine kommen muß, sieht sich dieser Zweig der Korpuslinguistik folgerichtig als ein Teil der Computerlinguistik an:

This makes corpus-based research a branch of computational linguistics; it is computational linguistics with an emphasis on large quantities of data, and always oriented toward analysis. (Jan Aarts / van den Heuvel 1985: 305).

Vom Natural Language Processing, dem sprachorientierten Teil der K(ünstlichen) I(Intelligenz), dem es um die Entwicklung von sprachverarbeitenden Systemen geht, die bisher Menschen vorbehaltene, mit Sprache zu erledigende Aufgaben übernehmen oder aber als Tools im lexikographischen Bereich eingesetzt werden sollen, unterscheidet sie sich aber durch ihre Konzentration auf die Sprache selbst. Bei allem Streben nach einem voll automatisierten Analyseprozeß ist das hauptsächliche Ziel nämlich nicht nur die Entwicklung eines Systems, sondern unter Einsatz eines solchen Systems entweder eine vollständig beschriebene Sprache:

The corpus linguist (that is to say, the linguist who analyzes a corpus, not the one who exploits a corpus that has already been analyzed) is primarily concerned with the full description of the corpus language. (Jan Aarts / van den Heuvel 1985: 305-306),

oder aber ein analysiertes Korpus, das selbst wieder zur Grundlage linguistischer, dann aber auf abstrakteren Ebenen angesiedelten Untersuchungen wird:

Once a computer corpus has been annotated with some kind of linguistic analysis, it becomes the springboard for further research; it enables a concordance program, for example, to search for grammatical abstractions (...) rather than for words. (Leech 1991: 19).

2.3.2 CCL und Feldforschung

Ein anderer Zweig der Computerkorpuslinguistik, nämlich der, der uns hier besonders interessiert, nutzt dagegen die Möglichkeiten des Computers zur systematischen Feldforschung aus, d.h. zur Erhebung von Daten aus dem computerlesbaren Sprachmaterial. Die anschließende Analyse der Daten wird (bisher) größtenteils von Menschen und nicht von Maschinen durchgeführt. Wenn auch diese Art von Korpusarbeit bei den sich eher zur Computerlinguistik rechnenden Korpuslinguistinnen und -linguisten nur als unterste Stufe einer Skala gilt, die letztendlich dorthin führt, wo Maschinen die gesamte Analyse übernehmen:

At one end of the scale, the computer program (e.g. a concordance program) is used simply as a tool for sorting and counting data, while all the serious data analysis is performed by the human investigator. (...) At the other extreme, the human analyst provides no linguistic insight, just programming ability; the machine discovers its own categories of analysis, in effect implementing a 'discouvery procedure'. (Leech 1991: 14),

so liefert doch gerade die englische Korpuslinguistik linguistischer Prägung den Beweis, wie fruchtbar ein von Menschen geleitetes Vorgehen sein kann, und zwar nicht nur was die Untersuchung einzelner schon bekannter Phänomene bzw. die Überprüfung ihrer vorkorpuslinguistischen Interpretationen betrifft, sondern auch im Hinblick auf die linguistische Theorie. Wenn wir nämlich einmal bedenken, dass etwa in der grammatischen Theorie, wie Douglas Biber und Edward Finegan (1991: 205) darlegen, noch immer die introspektiven und logischen Modelle vorherrschend sind oder, wie Maurice Gross es ausdrückt, abstrakte Spekulationen die Hauptbeschäftigung der Linguistik ausmachen "abstract speculation is the preeminent linguistc activity" (Gross 1994: 260), dann schaffen aufgrund von Computerkorpora durchgeführte Analysen zur Sprachstruktur, sprachlichen Variation und Sprachgeschichte dazu endlich das dringend benötigte, an den tatsächlichen Manifestationen der Sprache ausgerichtete Gegenstück. Menschen werden zudem, wenn es um die Sprache geht, wie Jan Svartvik sehr treffend bemerkt, immer notwendig sein, zum einen damit die neue Technologie richtigt eingesetzt wird und auch funktioniert, zum anderen zur Interpretation der computationell erhobenen Daten:

for its proper use, the new technology has to be completely administered by human resources: linguists combining hard corpus data with soft human intuition, software engineers heeding the limitations of the human end-user, language teachers providing interactive human input.

Gerade die Interpretation sprachlicher Daten, die ja letztendlich die Hauptaufgabe der Linguistik ist, kann nämlich einer banalen Maschine nicht einfach überlassen werden:

in the last analysis, the best machine for grinding general laws out of large collections of facts remains the same as Darwin's and Jespersen's - the human mind. (Svartvik 1992: 11-12).

2.3.3 Perspektivenwechsel

Die Computerkorpuslinguistik linguistischer Prägung, im Folgenden CCL genannt, ist aber nicht ausschließlich eine neue Methodologie für die Untersuchung von Sprachen, sondern nach Leech auch "a new research enterprise, and in fact a new philosophical approach to the subject" (Leech 1992: 106). Computerlesbare Sprachkorpora halten nämlich generell das Sprechen als Ergon, als schon Gesprochenes fest, als "naturally-occuring spoken or written discourse" (Leech 1992: 107) oder wie zuletzt auch das INaLF bemerkt: "tout état discours est une tranche de passé communicatif soumis à examen" (Bernet/Rézeau 1997). Damit können sie, wie schon gesagt, Auskunft geben über den tatsächlichen Sprachgebrauch:

corpora of written and spoken language are an essential source of information about real uses of language (Soler 1993: 225).

Dieser Gebrauch läßt sich mit Hilfe des Computers und seiner Fähigkeit, Daten zu suchen, zu erheben, zu sortieren und zu berechnen dann auch systematisch analysieren. So können, wie das auch in anderen Wissenschaften üblich ist: "Science establishes facts and deals with established facts." (Gross 1994: 259), Fakten erhoben werden und zu Modellen sprachlichen Verhaltens führen (cf. Leech 1992: 106), so dass endlich das Sprechen selbst zum Maßstab der linguistischen Theoriebildung wird. Besonders anschaulich wird dieser Perspektivenwechsel, hier bezogen auf die Lexikologie, beschrieben in dem folgenden Zitat aus Charles Bernet und Pierre Rézeau (1997):

Au lieu de poser que les mots, partant d'une signification noyau, sont soumis dans le discours à des "effets de sens" dus au contexte, on pose, au contraire, que ce sont ces "effets", originaires, qui sont la source du sens: les mots remplissens d'abord des fonctions sociales et s'impliquent dialogiquement dans des énoncés en concurrence. C'est postérieurement que le lexicologue se donnera le droit de réunir les faisceaux d'emploi, imaginant des registres, des codes, en puisant dans les champs et les réseaux inventoriés, pour inférer, par systématisation, vers un usage en situation [...] voir [...] vers une "langue" codifiée hors situation, voire vers des structures linguistiques sous-jacentes et, pourquoi pas?, des universaux: cela dépend du degré et de la nature des constantes observées.

Dieser Standpunktwechsel, den Leech ausdrücklich in Abgrenzung zu anderen linguistischen Herangehensweisen und vor allem in Abgrenzung zu Chomsky's Ansatz sowie dem seiner Schule formuliert, wird also, und das geht ja auch schon aus dem obigen Zitat klar hervor, durch die im folgenden aufgeführten Punkte charakterisiert:

Focus on linguistic performance, rather than competence Focus on linguistic description, rather than linguistic universals
Focus on quantitative, as well as qualitative models of language
Focus on a more empiricist, rather than rationalist view of scientific inquiry. (Leech 1992: 107).

Die Computerkorpuslinguistik geht also vom tatsächlichen Sprechen aus und betrachtet das Sprechen - ausdrücklich in Umkehrung der Chomsky'schen Dichotomie - wie auch nicht zuletzt von Coseriu gefordert, als primäre Manifestation der Sprache: die CCL

reverses Chomsky's own conviction that the primary subject of linguistics is the native speaker's mental competence, rather than its physical manifestation in language use. (Leech 1992: 107). n der Sprechenden und Angesprochenen und ihren Interpretationen abstrahiert (cf. Leech 1992: 108).

Gerechtfertigt wird diese Umkehrung vor allem damit, dass die Performanz im Unterschied zur Kompetenz beobachtbar ist und sie sich zudem nicht so sehr von der Kompetenz differenziert, wie bisher behauptet worden ist.

Die Computerkorpuslinguistik untersucht demnach das Sprechen als physisches Produkt, indem sie, da ein Korpus, wie Bungarten sagt, eine statische Datenkonserve ist (cf. Bungarten 1979: 35), von den physischen und psychischen Produktionsfaktoren der Sprechenden und Angesprochenen und ihren Interpretationen abstrahiert (cf. Leech 1992: 108). Die CCL ist deshalb, wie weiter oben schon bemerkt, zunächst einmal deskriptive Linguistik von Einzelsprachen und nicht der Sprache an für sich oder faculté du langage.

Als lower-order theory ergänzt sie nach Leech die higher-order theory, die als theoretische Linguistik die sprachlichen Universalien beschreibt (cf. Leech 1992: 109). Higher und lower haben hier nichts mit 'mehr oder weniger theoretisch', bzw. 'wertvoller und weniger wertvoll' zu tun, stattdessen beziehen sie sich auf den Unterschied zwischen einer eher abstrakten und einer konkreten Grundlage, auf der diese Theorien beruhen.

Zwischen ihr und der quantitativen Linguistik besteht grundsätzlich eine enge Relation, die sich zum einen aus der Untersuchung des Sprechens auf der Grundlage von Korpora ergibt, zum anderen der Bedeutung des auch in quantitativer Hinsicht charakterisierten Gebrauchs Rechnung trägt.

Empirizistisch ist sie insofern, als sie zum einen davon ausgeht, dass die Theorie auf der Beobachtung aufzubauen hat und nicht umgekehrt die Beobachtung auf der Theorie: "observation contributes to theory more than theory contributes to observation." (Leech 1992: 111), zum anderen weil die aus Korpora erhobenen Daten im Unterschied zu denen, die der Intuition abgerungen werden, von der damit zu überprüfenden Theorie unabhängig sind: "The data of a corpus, more thoroughly than we have grown to expect in linguistics, are independent of the tenets of the theory they are required to test." (Leech 1992: 111).

Ein Sprachmodell, das auf der Grundlage von Korpora des Sprachgebrauchs entwickelt wird, erfüllt zudem die Kriterien für eine wissenschaftliche Theorie. So gehen alle Daten exhaustiv und nicht nur die, die bestimmten a priori Kriterien genügen, in die Theoriebildung ein. Das Modell kann dann selbst wieder an anderen Korpora getestet werden, so lange, bis es experimentell modifiziert die Daten so vollständig wie möglich repräsentiert. Der ganze Prozeß der Theoriefindung läßt sich zudem im Sinne der Objektivität auch von anderen Linguistinnen und Linguisten verifizieren, die nicht selbst in diesen Prozeß eingebunden sind. Ein weiterer Vorteil einer auf Computerkorpora gründenden Linguistik ist, dass sich auf längere Sicht auch verschiedene Modelle miteinander vergleichen lassen und so mit der Zeit das beste Sprachmodell und damit die beste Theorie gerade auch für die Kompetenz gefunden werden kann (cf. Leech 1992: 112-113). Auch hier ist also nicht wie Chomsky intimiert, die Objektivität ein Ziel an für sich, sondern der Ausgangspunkt für eine Untersuchung der sprachlichen Kompetenz, und zwar entweder im Sinne von System oder, wie ich meinen würde, im Sinne von sprachlichem Wissen insgesamt. Das heißt, dass wie im Falle der von Chomsky erwähnten Naturwissenschaften (cf. Chomsky 1965: 20) davon ausgegangen wird, dass von den Fak-ten her, in unserem Falle also der Performanz oder genauer noch dem Sprechen, Einsicht in die zugrundeliegenden Strukturen, Verfahren und Komponenten, in unserem Falle die Kom-petenz erreichbar ist. Die Auffassung vom Zusammenhang zwischen Wissenschaftlichkeit und Theorie hat sich damit also insgesamt gewandelt und die sprachlichen Fakten selbst rü-cken jetzt ins Zentrum des Interesses. Maurice Gross, der ebenfalls einen solchen Wandel für notwendig erachtet, beschreibt das Vor- und Nacher so:

Linguists commonly believe that operating within a formal theory is a condition sine qua non for achieving a scientific status. [...] In contrast, we think that linguistic theories should have more modest and immediate goals, than constructing a universal grammar that explains learning and generalizes the neural sciences. [...] We think that this overwhelming emphasis on theoretical activity is out of place when not one grammar is as yet available of a language as much studied as English. (Gross 1994: 259-260).

2.4 Korpustypen

Was nun die Grundlagen der Korpuslinguistik, d.h. die computerlesbaren Korpora betrifft, so können hier zunächst vier allgemeine Typen unterschieden werden:

	general oder Referenzkorpora: dazu gehören sowohl das Brown Corpus of present-day American English und sein britisches Pendant, das Lancaster-Oslo/Bergen Corpus, als auch die meisten heutigen Referenzkorpora wie z.B. das B(ritish) N(ational) C(orpus), das I(nternational) C(orpus of) E(nglish) oder das Corpus de Referencia del Español Contemporáneo etc. Der Terminus "Referenzkorpus" wird hier in einem anderen Sinne gebraucht, als das bei Koch/Oesterreicher (1990: 243-248) der Fall ist. Referenzkorpora sollen, wie im Folgenden dargestellt wird, eine Sprache repräsentieren. Bei Koch/Oesterreicher ist mit "Referenz-Corpus" dagegen das ihrer Untersuchung zugrundeliegende Korpus gemeint.
	Genre-Korpora oder sublanguages Korpora: z.B. Zeitungskorpora, Korpus des modernen englischen Dramas etc.;
	kanonische Korpora, die das Gesamtwerk einer Autorin oder eines Autors umfassen;
	· chronologische Korpora: z.B. The Century of Prose Corpus (dieses Korpus wurde von Louis T. Milic erstellt. Für eine ausführliche Beschreibung cf. Milic 1990), das Women Writers Project (cf. Lancashire 1991: 245). oder auch das CLIPON-Korpus an der Universität Catania, das der italienischen Dichtung des 19. und 20. Jahrhunderts gewidmet ist (vgl. hierzu Savoca 1990).

Von diesen bereiten die kanonischen Korpora bei ihrer Erstellung, abgesehen von technischen oder Copyright-Problemen, die wenigsten Schwierigkeiten, da hierbei nur das jeweilige Gesamtwerk in Frage steht und so keine (repräsentative) Auswahl getroffen werden muß. Bei den übrigen drei Korpustypen ist dagegen eine Auswahl anhand von bestimmten Kriterien unumgänglich, da entweder das Sprachmaterial insgesamt viel zu umfangreich ist oder aber eine unendliche Menge darstellt. Ausgenommen hiervon sind lediglich Genre- bzw. chronologische Korpora dann, wenn es sich um sogenannte "tote" Sprachen, wie das Altgriechische, das klassische bzw. mittelalterliche Latein oder das Altkirchenslavische handelt, oder um alte Sprachzustände, wie das Altfranzösische, Altitalienische oder Altspanische. Ich denke hier an Korpora wie den Thesaurus Linguae Graecae mit etwa 60 Millionen Wörter des klassischen Griechisch oder das in Toronto erstellt Korpus des Altenglischen (cf. etwa Lancashire 1991: 203 u. 233). Da hier die schriftlich erhaltenen Zeugnisse eine abgeschlossene und relativ überschaubare Menge bilden, oder wie Bungarten sagt, selbst zu Korpora erstarrt sind (cf. Bungarten 1979: 31), wird zumeist angestrebt, das Sprachmaterial insgesamt in das Korpus zu integrieren. Trifft dies nicht zu, dann wird bei den einzelnen Korpustypen intern je nach der Art der Erhebung und damit Auswahl des Sprachmaterials weiter unterschieden und zwar in Stichprobenkorpora und full-text Korpora, wobei zu letzteren auch die Monitor-Korpora gehören.

2.4.1 Stichprobenkorpora

Stichprobenkorpora sind generell Ausdruck des Strebens nach statistischer Repräsentativität und des Versuchs, traditionelle statistische Methoden für Sprachuntersuchungen nutzbar zu machen. Statistische Untersuchungen werden schließlich generell daran gemessen, ob sie die Verhältnisse der Gesamtpopulation oder Grundgesamtheit, der die Proben entnommen sind, abbilden und die erzielten Ergebnisse so auf diese hin verallgemeinert werden können. Beispiele von Stichprobenkorpora sind das Brown und das LOB Korpus, wo angestrebt wurde, einen repräsentativen Schnitt durch die Textproduktion eines bestimmten Zeitraums (1961) zu legen und diese anhand von 500 Stichproben im Umfang von je 2000 Wortformen zu reproduzieren. Diese Methode wird z.T. auch noch bei heutigen Korpusprojekten angewandt. So setzt sich auch das International Corpus of English, das das weltweit gesprochene Englisch zum Gegenstand hat und sich aus ca. 15 verschiedenen Unterkorpora zusammensetzt, die der vom Brown und LOB Korpus begründeten Tradition folgend, selbst wieder aus 500 Stichproben zu je 2000 Wortformen bestehen. Für eine ausführliche Beschreibung vgl. Leitner (1992: 40-42) bzw. Greenbaum (1991 u. 1992).

In der Zwischenzeit gilt das Interesse aber nicht mehr nur lexikalischen Phänomenen, sondern schließt auch Bereiche wie die syntaktischen Strukturen ein, für deren Untersuchung sich Stichproben im Umfang von 2000 Wortformen oft als zu klein erweisen. Darüber hinaus hat die Varietätenlinguistik längst auch in der Korpus-basierten Linguistik Fuß gefaßt:

People talk and write differently; they are exposed both orally and visually to many different kinds of language material. Consequently, there is a need to study the ecology of language, that is, the relation between particular uses of language and the contexts in which they occur. (Hockey/Walker 1993: 240).

Da gerade auch für Untersuchungen im Rahmen dieser beiden Bereiche Stichproben traditionellen Umfangs nicht ausreichend sind, steht die Größe der Stichproben insgesamt zur Diskussion. Wie aber statistische Experimente zu verschiedenen sprachlichen Phänomenen in unterschiedlich großen Stichproben zeigen, kann diese Diskussion nicht grundsätzlich geführt werden. Stattdessen liegt der Schluß nahe, daß

the suitability of the sample depends on the specific study that is undertaken, and that there is no such thing as the best, or optimum, sample size as such. (de Haan 1992: 3).

2.4.2 Das Repräsentativitätskriterium

Jedoch steht nicht nur die Größe der Stichproben bei Sprachkorpora immer mehr zur Debatte, sondern die statistische Stichprobenerhebung selbst und damit das Repräsentativitätskriterium insgesamt. Zudem ist vorauszusehen, daß im Zusammenhang einerseits mit den immer größer werdenden Korpora, andererseits mit ihrer verstärkt auf ein bestimmtes Ziel ausgerichteten Erstellung, das Repräsentativitätskriterium immer mehr in den Hintergrund tritt (cf. Svartvik 1992: 11).

Repräsentativität wird, wie gesagt, vor allem dann zum Problem, wenn das zu erstellende Korpus ein Referenzkorpus sein soll, das das Sprechen einer Gemeinschaft zu einem bestimmten Zeitpunkt repräsentiert und die Untersuchung des Korpus deshalb Rückschlüsse auf die Gesamtheit dieses Sprechens ermöglichen soll. Solche Korpora werden heute mehrheitlich dazu produziert, um als Grundlagen für die Erstellung von Wörterbüchern, Grammatiken und anderen Nachschlagewerken zu fungieren:

a corpus must be 'representative' in order to be appropriately used as the basis for generalizations concerning a language as a whole; for example, corpus-based dictionaries, grammars, and general part-of-speech taggers are applications requiring a representative basis (Biber 1994: 377).

Referenzkorpora dienen also nicht nur akademischen, sondern vor allem auch kommerziellen Interessen. Deshalb werden sie zumeist auch in Zusammenarbeit von akademischen Institutionen und Unternehmen erstellt. Um nur ein aktuelles und gut dokumentiertes Beispiel zu nennen, sei hier auf das B(ritish) N(ational) C(orpus) verweisen. Das Projekt wurde 1991 unter der Leitung der Oxford University Press begonnen und vor kurzem abgeschlossen. Daran beteiligt waren Lexikaproduzenten wie Addison-Wesley, Longman, Larousse, Kingfisher und Chambers, sowie die Oxford University Computing Services, das Lancaster University's Centre for Computer Research on the English Laguage und das British Library's Research and Innovation Centre.

Auch dabei ist aber die Repräsentativität von Korpora noch immer vor allem "an act of faith" (Leech 1991: 27, Fn. 9). Zudem sind im Unterschied zu sozio-ökonomischen Populationen bei historischen Einzelsprachen weder die verschiedenen Arten oder Varietäten der Sprache genau definiert, noch ist klar, durch welche sprachlichen Einheiten, seien es Wortformen, Sätze oder Texte, sich die Population definieren läßt. Hinzu kommt das nicht endliche Ausmaß der Population, d.h. des Sprachmaterials selbst, das dazu führt, daß "it will always be possible to demonstrate that some feature of the population is not adequately represented in the sample." (Clear 1992: 21).

Douglas Biber, der sich, wie gesagt, wohl am intensivsten mit Fragen der Korpuserstellung beschäftigt, versucht dagegen, einer Lösung des Repräsentativitätsproblems anhand von statistischen Untersuchungen näher zu kommen und Prinzipien dafür zu entwickeln, wie ein Korpus aufgebaut sein muß, damit seine Untersuchung die Sprache als Ganzes betreffende Generalisierungen erlaubt. Repräsentativität wird nicht primär an der Größe des Korpus bzw. der einzelnen Stichproben festgemacht. Ausschlaggebend ist bei Biber stattdessen das Maß, in dem das Korpus die sprachliche Variabilität einer Population respektiert, die sich zum einen an situationellen Faktoren und damit Texttypen, zum anderen an der Distribution sprachlicher Phänomene festmachen läßt:

Representativeness refers to the extent to which a sample includes the full range of variability in a population. [...] Thus a corpus design can be evaluated for the extent to which it includes: (1) the range of text types in a language, and (2) the range of linguistic distributions in a language. (Biber 1993: 243).

Um diese Art von Repräsentativität aber überhaupt erreichen zu können, muß zunächst die Population anhand ihrer Grenzen und der verschiedenen situationell bedingten Textkategorien sowie deren weiteren Differenzierung in Unterkategorien genau definiert werden:

Definition of the target population has at least two aspects: 1) the boundaries of the population - what texts are included and excluded from the population; and 2) hierarchical organization within the population - what text categories are included in the population, and what are their definitions. (Biber 1994: 378).

Dazu sollen nach Biber sampling frames erstellt werden, die etwa so aussehen:

Table 1 Situational parameters listed as hierarchical sampling strata.

1. Primary channel: written / spoken / scripted speech

2. Format: published / not published (+ various formats within 'published')

3. Setting: institutional / other public / private-personal

4. Addressee:

a. plurality: unenumerated / plural / individual / self
b. presence (place and time): present / absent
c. interactiveness: none / little / extensive
d. shared knowledge: general / specialized / personal

5. Addressor:

a. demographic variation: sex, age, occupation, etc.
b. acknowledgement: acknowledged individual / institution

6. Factuality: factual-informational / intermediate or indeterminate / imaginative

7. Purposes: persuade, entertain, edify, inform, instruct, explain, narrate, describe, keep records, reveal self, express attitudes, opinions, or emotions, enhance interpersonal relationship, ...

8. Topics: ...

Vom jeweiligen sampling frame abhängig ist die Distribution der sprachlichen Phänomene. Erst nach der Definition eines solchen Rahmens ist eine Erhebung nach Strata möglich, die nach Biber deshalb vorzuziehen ist, weil hier im Unterschied zur Erhebung nach dem statistischen Zufallsprinzip alle Schichten mit absoluter Sicherheit berücksichtigt werden (cf. Biber 1993: 243-244).

Die Textkategorien und ihre Unterkategorien selbst können dabei jedoch nicht, wie bei soziologischen Untersuchungen üblich, proportional zu ihrem Anteil an der Gesamtpopulation erhoben werden:

Language corpora require a different notion of representativeness, making proportional sampling inappropriate in this case. (Biber 1993: 247).

Erstens läßt sich die sprachliche Population nicht wie die einer bestimmten Gesellschaft genau bestimmen:

It is not linguistically valid to undertake a simple random sampling procedure for the total population, as this population cannot be exactly or concretely determined (Engwall 1994: 51).

Zudem würden proportionale Erhebungen nur das zahlenmäßige Gewicht, nicht aber die tatsächliche Bedeutung der Kategorien repräsentieren und würden auch dem Ausmaß der in einer Sprache gegebenen Variation nicht gerecht:

there are two main problems with proportional language corpora. First, proportional samples are representative only in that they accurately reflect the relative numerical frequencies of registers in a language - they provide no representation of relative importance that is not numerical. Registers such as books, newspapers, and news broadcasts are much more influential than their relative frequencies indicate. Secondly, proportional corpora do not provide an adequate basis for linguistic analyses, in which the range of linguistic features found in different text types is of primary interest. (Biber 1993: 247-248).

Unter text type versteht Biber Textkategorien, die aufgrund von sprachlichen Kriterien abgegrenzt werden:

Text types cannot be identified on a priori grounds; rather they represent the groupings of texts in a corpus that are similar in their linguistic characterizations, regardless of their register categories. (Biber 1993: 256).

Textkategorien, die situationell bestimmt sind, nennt Biber dagegen registers oder genres:

registers are based on the different situations, purposes, and functions of text in a speech community (Biber 1993: 245).

Für Jeremy Clear definiert sich die zu repräsentierende Population idealiter zwar über die gesamte Sprachproduktion der in Frage stehenden Sprachgemeinschaft:

Ideally the population [...] would be defined in terms of the total language production, since this would take account of all the millions who constitute the speech community. (Clear 1992: 24),

abgesehen davon aber, daß diese so nicht erfaßt werden kann, würde ihre repräsentative Gewichtung die Rezeption mißachten und so zu Lasten gerade der Sprachproduktion gehen, die wie die der Medien an der Rezeption den größten Anteil hat (cf. Clear 1992: 25). Im Unterschied zur Produktion, wo es um die Wahrscheinlichkeit geht, mit der ein Mitglied der Sprachgemeinschaft ein bestimmtes Wort oder eine bestimmte Konstruktion verwendet, geht es nämlich im Falle der Rezeption um die Wahrscheinlichkeit, mit der dasselbe Mitglied mit einem bestimmten Wort oder einer bestimmten Konstruktion in Berührung kommt (cf. Clear 1992: 24). Letzteres hat dann selbst wieder Auswirkungen auf das Sprechen. Beide Perspektiven müssen also bei der Erstellung eines Referenzkorpus berücksichtigt werden:

we can define the language to be sampled in terms of language production (many producers, few receivers) and language reception (few producers, many receivers). (Clear 1992: 26).

Language production (Clear 1992: 25)

Language reception (Clear 1992: 25)

Solchen Überlegungen trägt das BNC als erstes modernes Korpusprojekt Rechnung. So werden bei der Erstellung des Spoken Corpus, einem Unterkorpus des BNC, das fünf bis zehn Millionen Wortformen umfaßt und der gesprochenen Sprache gewidmet ist, zur repräsentativen Erhebung der alltäglichen sprachlichen Produktion der Bevölkerung Großbritanniens demographische Parameter herangezogen. Ergänzend dazu wird ein ebenfalls regional gestreutes, aber durch Kontext-, d.h. die Sprechsituation betreffende Parameter determiniertes Teil-Korpus erstellt, das die Textkategorien aufnimmt, die wie z.B. Vorlesungen oder Fernsehsendungen im Verhältnis zur alltäglichen Produktion zwar relativ selten und nur von wenigen produziert werden, sich dafür aber an ein umso größeres Publikum richten und daher unter dem Aspekt der Rezeption von Bedeutung sind (cf. Crowdy 1993).

Während die Repräsentativität eines Korpus bezüglich der außersprachlichen Variabilität der Population schon vor der eigentlichen Korpuserstellung festgelegt werden kann, ist dies, wie Bibers empirische statistische Untersuchungen zeigen, bei der Repräsentativität in bezug auf die Verteilung von sprachlichen Phänomenen in Texten und über Texte und Textkategorien hinweg gerade nicht der Fall:

the parameters of a fully representative corpus cannot be determined at the outset. (Biber 1993: 256).

Stattdessen muß bei der Korpuserstellung zyklisch vorgegangen werden. Konkret bedeutet dies, daß zunächst ein hinsichtlich von Varietäten breit angelegtes Pilotkorpus zu erstellen ist und dessen verschiedene Strata auf die Variation sprachlicher Phänomene und Texttypen hin zu untersuchen sind. Der weitere Ausbau wird durch die dabei erzielten Ergebnisse bedingt und immer wieder anhand empirischer Untersuchungen kontrolliert. Erst wenn das Korpus vollständig erstellt ist, stehen so die Kriterien seines Aufbaus endgültig fest:

the design of a representative corpus is not truly finalyzed until the corpus is completed (Biber 1993: 256)

Dieser Erkenntnis trägt das BNC Spoken Corpus in gewisser Hinsicht Rechnung, wenn zunächst für beide Teilkorpustypen ein Pilotkorpus erstellt, bei der Zusammenstellung der in das context-governed Korpus aufzunehmenden Textkategorien flexibel verfahren und die Erhebungsmethode für jede Unterkategorie individuell bestimmt wird (cf. Crowdy 1993: 262).

2.4.3 Full-text Korpora

Neben dieser der Sprache eher angemessenen Auffassung von Repräsentativität und der damit verbundenen nicht proportionalen Erhebungsmethode auf der Ebene der Textkategorien setzt sich aber auch, was die Ebene der einzelnen Texte selbst betrifft, eine neue Erhebungsmethode durch. Während traditionelle Korpora wie das Brown und LOB hier nach dem statistischen Zufallsprinzip vorgegangen sind, das aufgrund des im Voraus bestimmten (geringen) Umfangs der Stichprobe die Integrität von Texten nicht respektiert, wird jetzt u.a. von Biber gerade die Zufälligkeit und damit zugleich die statistische Repräsentativität einer solchen Erhebung von Texten in Frage gestellt, denn: "these words are certainly not selected randomly (i.e. they are sequential), and the adequacy of representation thus depends on the sample length relative to the total text length." (Biber 1993: 248). Repräsentativität bei der Erhebung der einzelnen Texte scheint nämlich eher dann garantiert, wird auch auf der Textebene eine Erhebung nach Strata praktiziert, eine Erhebung also, die zumindest die Abgeschlossenheit von Textkomponenten respektiert (cf. Biber 1994: 388).

Dies ist aber nur der Anfangspunkt einer Tendenz, die generell immer mehr zur Aufnahme ganzer Texte in Korpora führt. So wird beim kontextuell determinierten Teil des BNC Spoken Corpus eine Obergrenze von 10.000 Wörtern für die einzelnen Texte einer Textkategorie definiert und bei dem der geschriebenen Sprache gewidmeten Teil des BNC wurde die Grenze sogar auf 45.000 Wörter festgesetzt. Alle Texte, deren Wörter diese Zahl nicht überschreiten, werden als Ganzes in das jeweilige Unterkorpus integriert. Darüber hinaus wird unabhängig von der Wortzahl auf die Integrität von Zeitungs- oder Zeitschriftenexemplaren grundsätzlich geachtet (cf. http://info.ox.ac/bnc/). Auch im Rahmen des International Corpus of English argumentiert Leitner dafür (cf. 1992: 51 u. 62, Fn. 17), daß trotz des a priori fixierten Stichprobenumfangs von 2.000 Wörtern möglichst ganze Texte gesammelt werden. Ebenso setzt sich das Projekt des Corpus of Spoken American English, das 200.000 Wörter umfassen soll, zum Ziel, "to include whole conversational interactions as far as possible" (Chafe/Du Bois/Thompson 1991: 67).

John Sinclair hat zudem, da die sprachlichen Phänomene auch in Büchern etwa nicht gleichmäßig über den ganzen Text verteilt sind, die Aufnahme ganzer Texte in ein Korpus längst zu einem Prinzip erklärt, denn ein Korpus, das aus ganzen Dokumenten besteht, kann für alle möglichen Untersuchungen die Grundlage bilden (cf. Sinclair 1991: 19). Zudem lassen sich aus ganzen Texten jederzeit Stichproben entnehmen.

2.4.4 Monitor-Korpora

Noch weiter gehen sogenannte Monitor-Korpora, wie sie gerade von John Sinclair schon zu Beginn der 80er Jahre ins Gespräch gebracht wurden. Monitor-Korpora sind nämlich prinzipiell keinen Beschränkungen unterworfen und wachsen fortwährend nach bestimmten Kriterien. Enstanden ist die Vorstellung von einem Monitor-Korpus im Rahmen des COBUILD Projekts, das 1980 als joint venture zwischen der Universität in Birmingham und dem Verlag Collins gegründet wurde. Ziel des Projekts war eine Beschreibung des Englischen auf der Grundlage natürlicher Texte, d.h.

"one which was not based on the introspections of its authors, but which recorded their observations of linguistic behaviour as revealed in naturally-occuring text." (Renouf 1987a: 1)

und die Verbreitung der dabei erzielten Ergebnisse in verschiedenen Nachschlage- und Unterrichtswerken. Eines der wichtigsten Ergebnisse dieser Arbeit ist das Collins Cobuild English Language Dictionary, das 1987 zum ersten Mal erschienen ist. Dabei handelt es sich um das erste auf der Grundlage von in elektronischer Form gespeichertem Sprechen erstellte Wörterbuch (cf. Sinclair 1987/1993). Eine ausführliche Beschreibung des COBUILD Projekts sowie der Erstellung des Korpus und des daraus entstandenen Wörterbuchs ist Sinclair (1987).

Hierzu wurde unter der Leitung von Antoinette Renouf die Birmingham Collection of English Text erstellt, ein für damalige Begriffe riesiges elektronisches Korpus von "'general' English", das 1984 schon mehr als 12 Millionen Wortformen umfaßte. Dieses sollte in der Folge als Monitor-Korpus behandelt werden (cf. Renouf 1984: 4). 1987 umfaßte dieses Korpus dann schon ca. 20 Millionen Formen. Gestützt wird es von spezialisierteren Korpora, die zusammen ebenfalls ca. 20 Millionen Wortformen enthalten (cf. Sinclair 1987: vii).

Ein Monitor-Korpus ist ein dynamisches Korpus: "This [a monitor corpus] will be a dynamic rather than a static phenomenon, consisting of very large amounts of electronically-held text which will pass through the computer." (Renouf 1987a: 21), in das ausschließlich ganze, in mündlicher und schriftlicher Form produzierte Texte aufgenommen werden. Diese werden, da ein solches Korpus Einsicht in den Sprachzustand einer bestimmten Zeit gewähren soll, kontinuierlich durch neue ersetzt, um so das jeweils aktuelle sprachliche Verhalten abzubilden: "The process [d.h. die Behandlung als Monitor-Korpus, Anm. d. Verfasserin] will involve the continual replacement of old data by new, so that the changing store of text can always reflect current linguistic behaviour." (Renouf 1984: 4). Gerade diese Fähigkeit, einen Sprachzustand anhalten zu können, gibt nach Sinclair auch den Ausschlag für den Terminus selbst: "This new type of corpus I should like to call a monitor corpus, because of its capacity to hold a 'state of the language' for research purposes." (Sinclair 1991: 26).

Ein Monitor-Korpus unterscheidet sich also von einem Referenzkorpus dadurch, daß es grundsätzlich aus ganzen Texten besteht und zudem nie abgeschlossen ist, sondern sich "in a motivated and controlled way" (Clear 1992: 28) immer weiter entwickelt: "A monitor corpus consists of a huge stream of language in motion." (Sinclair 1992: 382). Neben der aktuellen Dimension wird ein solches Korpus somit auch eine historische Dimension aufweisen, d.h. die Entwicklung im Bereich des Sprechens und der Sprache reflektieren. Das nach Kriterien der Ausgewogenheit ausgewählte Textmaterial wird dabei verschiedenen Filtern unterworfen, die auf die Anliegen der Forschenden abgestimmt sind und dementsprechend Daten erheben. Aus einem solchen Korpus können dann auch je nach Bedarf kleinere Korpora zusammengestellt werden. John Sinclair ist ausdrücklich der Meinung, daß jede größere Sprache ein solches Korpus braucht: "Such a corpus is needed at least for every language which has international status." (Sinclair 1991: 25). Monitor-Korpora werden allerdings nicht unbedingt archiviert. Stattdessen werden oft nur die benötigten Daten aus dem kontinuierlich gesammelten elektronischen Textmaterial herausgefiltert (cf. Atkins/Clear/Ostler 1992: 5). Wie auch immer mit dem Material verfahren wird, das Hauptaugenmerk bei einem Monitor-Korpus liegt ausdrücklich auf der Größe und auf der Anwendbarkeit statistischer Verfahren (cf. Clear 1992: 28).

2.4.5 General vs. sublanguage Korpora

General oder Referenz-Korpora, ob sie nun als Stichproben- oder full-text Korpora konzipiert sind, setzen sich, wie wir gesehen haben, selbst wieder aus Unterkorpora zusammen, die sublanguages oder sprachliche Varietäten repräsentieren. Heute gilt sublanguages Korpora ein besonderes Interesse. Wurde nämlich die Erstellung von Referenzkorpora in den letzten Jahren auch von der sprachorientierten KI-Forschung oder NLP gefordert, nachdem sie erkannt hatte, daß sprachverarbeitende Systeme auf der Grundlage von Korpora zu entwickeln bzw. ihr Funktionieren daran zu testen sind, so werden jetzt gerade in ihren Reihen Referenzkorpora vermehrt in Frage gestellt. Grund hierfür sind nicht zuletzt auch die mit der Forderung nach Repräsentativität verbundenen und bisher nicht zufriedenstellend gelösten Probleme. An die Stelle von Referenzkorpora sollen Korpora treten, die nicht die Sprache insgesamt repräsentieren, sondern nur eine einzige Varietät, die zugleich einem bestimmten (Anwendungs-) Bereich entspricht: "We need representative corpora from our application domains." (McNaught 1993: 232).

Mit dieser Tendenz ist in der NLP zugleich eine Änderung in der Herangehensweise verbunden, die vom bisher vor allem praktizierten top-down jetzt mehr zum bottom-up Verfahren hin tendiert. Während beim top-down ausgehend von einem Referenzkorpus general purpose systems entwickelt werden, die erst später auf ihre Anwendbarkeit hin überprüft und dabei an die verschiedenen Umgebungen angepaßt werden sollen, wird bei der bottom-up Methode versucht, zunächst einzelne Varietäten oder sublanguages zu beschreiben und auf dieser Basis dann Systeme zu entwickeln, die in dem jeweiligen Bereich eingesetzt werden können (cf. McNaught 1993: 230). Sublanguages werden dabei folgendermaßen definiert:

a sublanguage (under one view) can be held to be a form of language that is sufficient unto itself - it has its own grammar (in the broadest sense) which generates the set of valid utterances of the sublanguage. Thus, sublanguage utterances are not deviant in themselves, they are only seen as deviant with respect to the general/standard language (McNaught 1993: 228).

Wie sehr dabei die Auffassung von sublanguages im Bereich des NLP mit der Registerlinguistik oder auch dem Coseriu'schen Konzept von einheitlichen Varietäten oder funktionellen Sprachen (cf. etwa Coseriu 1988a: 282-285) verwandt ist, zeigt auch die folgende Definition:

By sublanguages we mean different uses of the same language in different communicative contexts, with different speakers, for different communicative purposes; they present relevant differences in the range and distribution of several classes of linguistic phenomena. (Bindi/Calzolari/Monachini/Pirrelli/Zampolli 1994: 29).

Zu beachten ist allerdings, daß im Unterschied zu Coseriu, diese sublanguages oder verschiedenen Sprachregister (Sprachstile) gerade nicht in ein Konzept von historischer Sprache eingebettet sind. Deshalb werden sublanguages auch zumeist als vor allem aufgrund von lexikalischen Phänomenen charakterisierte Einheiten beschrieben: "The overall point is that the particular textual structures found in sublanguage corpora reflect very closely the structuring of the sublanguage's associated conceptual domain. It is the particular syntactified combinations of words that reveal this structure." (McNaught 1993: 233).

Wir haben es hier also mit einer Tendenz zu tun, die von der Untersuchung varietätenreicher und intentionell für eine Sprache insgesamt repräsentativer Referenzkorpora wegführt hin zu kleineren und damit homogeneren Entitäten. Sind diese erst einmal objektiv gegeneinander abgegrenzt und genau beschrieben, können sie für die Entwicklung und Erprobung von Systemen unmittelbarer und insgesamt auch ökonomischer eingesetzt werden, als dies bei der Komplexität von Referenzkorpora der Fall ist:

If the various sublanguages are objectively identified, and their pertinent features adequately described, their differences and their specific properties can be usefully exploited to reduce the actual range of computer-intractable linguistic situations, to improve the economic performance of the systems, to increase the acceptability of the products, to widen up the range of effectively feasible NLP practical industrial applications. (Bindi/Calzolari/Monachini/Pirrelli/Zampolli 1994: 29).

Objektiv identifizieren lassen sich Varietäten allerdings nur durch Vergleich, wobei ebenfalls entweder die top-down oder bottom-up Methode zum Einsatz kommt. Im ersteren Falle wird versucht, innerhalb eines (general) Korpus mit Hilfe statistischer Verfahren möglichst homogene Einheiten herauszuschälen und das, was sie voneinander unterscheidet zu determinieren. Vgl. hierzu etwa Burr (1993), wo auf der Grundlage eines computerlesbaren und aus ganzen Zeitungsausgaben bestehenden Korpus der Versuch unternommen wird, innerhalb der italienischen Zeitungssprache anhand der verschiedenen Ausformungen einer grammatischen Kategorie homogene Einheiten oder Varietäten abzugrenzen und ihre Gemeinsamkeiten und Unterschiede zu beschreiben. Biber (1989) verfolgt ein ähnliches Ziel, wenn er mit Hilfe einer multivariaten Analyse von zusammenauftretenden lexikalischen und syntaktischen Phänomenen die Herausarbeitung einer Texttypologie unternimmt.

Beim bottom-up werden dagegen Einheiten, die schon als mehr oder minder homogene bestimmt worden sind, zueinander in Beziehung gesetzt. Einen interessanten Vorschlag, wie für die vergleichende Untersuchung von stilistischen Varietäten eine gemeinsame Basis geschaffen werden kann, bei der weder die top-down noch die bottom-up Methode notwendigerweise angewandt werden muß, macht David Crystal (1991) mit seinen stylistics profiles.

2.4.6 Kodierte Korpora

Ein elektronisch gespeichertes Sprachmaterial macht aber selbst noch kein Korpus aus. Zwar können auf dieser Basis selbstverständlich interessante Untersuchungen vorgenommen werden, v.a. was den lexikalischen Bereich betrifft, den Möglichkeiten, die ein wirkliches elektronisches Korpus bietet, werden sie jedoch nicht gerecht. So sind zum einen, wie gesagt, sprachliche Phänomene nicht gleichmäßig über Texte verteilt, zum anderen können mit Hilfe des Computers nur solche Daten erhoben werden, die ausdrücklich definiert worden sind. Auch Kammer weist ausdrücklich darauf hin, daß allein die Existenz von elektronischen Texten bei der Erstellung von Korpora "nur in einem ganz begrenzten Umfang eine Hilfe darstellen kann", da allein der Buchstabenbestand noch "keineswegs als Grundlage für entsprechende Suchprogramme oder Programme, die bestimmte Analyseschritte vornehmen sollen, geeignet" ist (Kammer 1993: 53-54).

Deshalb werden Korpora normalerweise annotiert, d.h. den reinen Texten werden Informationen hinzugefügt:

The electronic corpus text is, however, more than simply a faithful representation of the letters and other orthographic features of the original version. Enough detail must be held on each individual text to allow it to be identified along the parameters selected. The machine-readable texts should also contain other special information tags if the new medium is to be exploited to the full. (Engwall 1994: 53).

Bezüglich der Informationen, die einem Korpus durch Kodierung hinzugefügt werden, unterscheidet Geoffrey Leech zwischen "interpretative and representational information". Die representational information betrifft die äussere Form des Textes, die interpretive information dagegen vor allem sprachliche oder genauer noch grammatische Phänomene (cf. Leech 1993: 275). Besondere Probleme bereitet allerdings gerade die Annotierung mit grammatischer Information, da sie bei weitem von der Interpretation abhängig sind und "bereits die Wahl des zur Beschreibung herangezogenen Grammatikmodells die erzielbaren Analyseergebnisse beeinflussen kann." (Kammer 1993: 54). Außerdem ist diese Art der Annotierung trotz aller Fortschritte im Software-Bereich noch immer ein sehr aufwendiges Verfahren. Die Folge ist, daß wie Stig Johansson ausführt, wenige wirklich grammatisch annotierte Korpora vorhanden sind:

There are very few tagged corpora available, and most of the texts which do exist include only part-of-speech tags. Producing a tagged corpus is very costly and time-consuming, in spite of great advances recently made in the development of computational techniques for tagging (Johansson 1991:308).

Etwas anders gelagert ist die Situation, was die Annotierungen zur äußeren Form betrifft. Hier geht es darum, einen Text sowohl hinsichtlich seiner Herkunft klassifizierbar und innerhalb des Korpus auffindbar, als auch seine phonischen oder graphischen Charakteristika, die ja in der reinen Textform nicht erscheinen, ersichtlich zu machen. Stig Johansson vergleicht diesen Prozess mit dem des Transkribierens von mündlichem Sprechen:

Something like the transformation of speech into a written transcript must be done in converting a written or spoken text to electronic form. The transcriber must select the features to represent and must organize them in a way which facilitates computer processing. (Johansson 1994: 83).

Auch diese Art der Annotierung ist gerade nicht trivial. Es müssen dabei nämlich Entscheidungen getroffen werden, die die Relevanz der Phänomene im Rahmen der späteren Nutzung des Korpus betreffen. Außerdem ist auf Vollständigkeit bei der Berücksichtigung der Informationsdimensionen zu achten,

weil der z.T. erhebliche zeitliche und finanzielle Aufwand für den medialen Transfer nur damit gerechtfertigt werden kann, daß die Ergebnisse dieser Arbeit zukünftig auch anderen Forschergruppen [sic] zur Verfügung stehen können; eine Entscheidung über deren Forschungsintentionen kann jedoch nicht vorweggenommen werden. (Kammer 1993: 53).

2.5 Austauschbarkeit

Ganz abgesehen von der Natur der zu treffenden Entscheidungen und der Vollständigkeit der Informationsdimensionen war in diesem Bereich bislang eines der größten Probleme, daß bei jedem Korpus individuell verfahren wurde und deshalb die einmal erstellten Korpora weder vergleichbar noch austauschbar waren. Da aber - und darauf wird in der Computerkorpuslinguistik immer wieder verwiesen - schon allein die Erstellung von Korpora ein sehr zeit-, arbeits- und kostenintensives Unterfangen ist und folglich nicht zugelassen werden kann, daß Korpora nur für ein bestimmtes Forschungsprojekt entwickelt werden und dann in der Schublade landen, hat heute die Austauschbarkeit der Daten erste Priorität. Um diese zu erreichen müssen Konventionen entwickelt werden, die ein einheitliches Format von computerlesbaren Texten garantieren.

Um ein solches einheitliches Format für die Kodierung von in erster Linie extralinguistischen Faktoren zu entwickeln, wurde 1987 auf einer Planungskonferenz der Association for Computers and the Humanities (ACH) in Poughkeepsie, New York, die Text Encoding Initiative (TEI) als ein internationales Forschungsprojekt gegründet. Gesponsert wird diese Initiative hauptsächlich von der Association for Computers and the Humanities (ACH), von der Association for Computational Linguistics (ACL) und der Association for Literary and Linguistic Computing (ALLC) (cf. Burnard 1992: 97).

Finanziert wird die TEI von verschiedenen Institutionen: US National Endowment for the Humanities, Direktorat XIII der Kommission der Europäischen Gemeinschaften, des Kanadischen Social Science and Humanities Research Councils und der Andrew W. Mellon Foundation (cf. Burnard 1992: 97).

Diese Initiative macht es sich zum Ziel, sowohl ein Format auf der Basis von SGML für elektronische Texte als auch Richtlinien hinsichtlich der zu kodierenden Elemente von Texten zu etablieren. Diese Standard Generalized Markup Language ist in der kommerziellen und akademischen Textverarbeitung weit verbreitet und von Hard- und Software unabhängig (cf. hierzu http://www.sil.org/sgml/sgml.html). Eingesetzt wird SGML z.B. auch bei der Elektronisierung des Trésor de la Langue Française (cf. Martin 1997: 37-38).

Eine Darstellung der Entstehung, Organisation, Vorgehensweise und Zusammensetzung der Initiative findet sich u.a. in Sperberg-McQueen/Burnard (1990: iii-vi). Einen Überblick über die einzelnen Phasen der Arbeit, das dabei Erreichte und die Art der Dokumentierung von elektronischen Texten und Korpora geben Susan Hockey/Donald Walker (1993: 236-239). Eine Einleitung in das Kodieren von Texten allgemein und vor allem von historischen Manuskripten im TEI-Format gibt Robinson (1994: 29-112).

Eine erste Version der Guidelines for the Encoding and Interchange of Machine-Readable Texts (TEI P1) wurde von C. M. Sperberg-McQueen und Lou Burnard dann 1990 herausgegeben. Seit 1994 stehen die Guidelines auch selbst in elektronischer Form auf CD-ROM zur Verfügung (cf. Sperberg-McQueen/Burnard 1994).

Wenn die Richtlinien der TEI heute vor allem bei den großen Korpusprojekten wie dem BNC oder ICE umgesetzt werden, so liegt das überwiegend auch an den Mitteln, die solchen Projekten zur Verfügung stehen. Ist letzteres bei einem Projekt gerade nicht der Fall bzw. verhindert das einzusetzende Analyseprogramm eine Kodierung des Korpus im Format der TEI, dann muß weiterhin auf andere Kodierungssysteme zurückgegriffen werden. Bei der Wahl eines solchen Formats ist heute allerdings grundsätzlich auch zu erwägen, ob es sich später verhältnismäßig unkompliziert an den neuen Standard anpassen läßt.

Bestimmte Regeln, die die TEI in ihren Richtlinien festgelegt hat, lassen sich aber grundsätzlich auf jedes Korpus übertragen, so etwa die Erstellung eines sogenannten headers, einer Art von Vorspann also, der die das ganze Korpus betreffenden Informationen enthält. Ein solcher header besteht normalerweise aus drei Teilen und läßt sich auf jeden Fall so gestalten, daß er gängige Analyseprogramme nicht stört, auch wenn sie sonst nicht auf das TEI-Format abgestimmt sind. Der erste Teil eines solchen headers soll den Namen des Korpus enthalten und die Person oder die Personen nennen, die an der Korpuserstellung beteiligt waren und ihre dabei ausgeübte Funktion. Hinzu kommen Angaben zu der das Korpus vertreibenden Stelle und zu den Quellen des Materials. Im zweiten Teil werden die editorischen Änderungen, wie etwa Normalisierungen oder Desambiguierungen aufgeführt, die dem Korpus zugrundeliegenden Auswahlkriterien genannt und das auf das Korpus angewandte Referenzsystem dargestellt. Der dritte und letzte Teil ist für die Darstellung der verschiedenen Phasen der Bearbeitung und die dabei vorgenommenen Änderungen reserviert (cf. Burnard 1992: 102).

Der header ist also insgesamt betrachtet aus folgenden Gründen von essentieller Bedeutung:

The header file [...] contains most of the information one might need to identify a corpus as a bibliographic entity and also much of the information one would need to determine its usability for some analytic purpose. It thus serves a function analogous to that of the title page and front matter in a printed volume. (Burnard 1992: 103).

Einen solchen Dokumentationsvorspann zu haben, ist denn auch das Mindeste, was heute von jedem Korpus erwartet wird. Darüber hinaus sollte aber auch jedes elektronische Sprachmaterial, das als Korpus verstanden werden will, tags, wie diese Art von Kodierungen in der Fachsprache heißen, zur Situierung und zu den wichtigsten strukturellen Faktoren der darin enthaltenen Texte aufweisen.

3. Korpora und die romanische Linguistik

Die Linguistik der romanischen Sprachen hat sich bisher kaum mit der Erstellung von Korpora und computergestützten Korpusanalysen beschäftigt. Stattdessen sind, abgesehen von einigen wenigen Ausnahmen in den skandinavischen Ländern, wo schon relativ früh mit der Erstellung von Korpora begonnen wurde (cf. Engwall 1994), die den romanischen Sprachen gewidmeten Korpusprojekte entweder in der Computerlinguistik angesiedelt und/oder in große Lexikonprojekte eingebunden. Vgl. etwa die Aktivitäten des Istituto di Linguistica Computazionale in Pisa bzw. des Institut National de la Langue Française, zu dem auch das Laboratoire de Lexicométrie et Textes Politiques in Saint-Cloud gehört, und der Real Academia Española, auf die ich im Rahmen der Behandlung von französischen, italienischen und spanischen Korpora noch etwas näher eingehen werde. Der Erstellung dieser Korpora liegen denn auch, wie im Falle des in letzter Zeit als Referenzkorpus des Italienischen gehandelten Pisaner Korpus ad hoc Kriterien zugrunde, bzw. sind sie, wie FRANTEXT, die Grundlage des Trésor de la langue française, zumindest ursprünglich Ausdruck von Kultur-, d.h. vor allem von Literatur-bewahrenden Tendenzen. Systematische (linguistische) Überlegungen zur Population, aus der das Sprachmaterial erhoben wird, bzw. zu dem, was ein solches Korpus repräsentieren soll, werden entsprechend der nicht wirklich sprachwissenschaftlichen Ausrichtung dieser Projekte nicht angestellt.

Etwas anders gelagert ist der Fall des Corpus de Referencia del Español Contemporáneo, das aus der Sicht von Marcos Marín vor allem den industrias de la lengua zugute kommen soll. Da dieses Projekt erst relativ spät zum Entstehen kam, wurde es von Anfang an als Referenzkorpus geplant. Auch Marcos Marín, der dieses Korpus sehr ausführlich behandelt, verzichtet aber auf eine Diskussion um die Art der Sprache, die es repräsentieren soll. Stattdessen gilt seine Aufmerksamkeit vor allem technischen Fragen sowie Fragen des Markup und der Organisation (cf. Marcos Marín 1994: 79-178). Was die linguistische Seite des Korpus selbst angeht, ist die folgende Aussage instruktiv:

Si ha discutido mucho sobre los porcentajes de tipos textuales que deben aparecer en un corpus y sobre la misma tipología textual. Cuando, como en el caso del español, se parte de cero, parece mucho más realista empezar por tener que empezar por discutir. (Marcos Marín 1994: 88).

Was die deutsche Romanistik betrifft, so ist sie von einem relativen Desinteresse an Computerkorpora und ihrer Erstellung, wenn nicht sogar an ihrer Untersuchung und ihrem Einsatz für Unterrichtszwecke geprägt. Dieses relative Desinteresse zeigt sich nicht zuletzt auch in der fehlenden Methodendiskussion. So gilt denn auch das, was Wolfgang Schweickard in bezug auf die Sprachwissenschaft im Allgemeinen bemängelt, für die romanische Linguistik in besonderem Maße:

Selbst für zentrale Bereiche, wie z.B. die Korpuserstellung und Korpusanalyse, bestehen [...] - trotz wichtiger Vorstudien - noch erhebliche Desiderata (so fehlt etwa eine zusammenfassende Darstellung der Prinzipien und Probleme der Korpuserstellung in der Sprachwissenschaft). (Schweickard 1995: 38).

Ein möglicher Grund hierfür mag darin liegen, daß das Gebiet insgesamt noch immer konzeptionell in den Aufgabenbereich der Computerlinguistik eingeordnet wird und nicht gesehen wird, daß die Computerlinguistik, auch wenn sie Korpora untersucht, damit ein Ziel verfolgt, das mit dem einer Korpus-basierten Linguistik nicht kongruiert. In allerletzter Zeit wächst aber doch das Interesse an einer solchen Linguistik.

Etwas anders ist die Lage in der italienischen Linguistik, wo es schon seit längerem zu einer äußerst fruchtbaren Zusammenarbeit zwischen der IBM oder Ablegern davon und einzelnen Gruppen von Sprachwissenschaftlerinnen und -wissenschaftlern kommt und im Rahmen des dottorato di ricerca immer öfter auch Computerkorpus-basierte Untersuchungen vergeben werden. Eine öffentliche Diskussion um die Zusammensetzung von Korpora ist aber auch von dort her nicht bekannt.

3.1 Einzelsprachige Korpora

Informationen zu Korpora der romanischen Sprachen lassen sich z.B. auf folgenden Internetseiten finden: http://www.sfb441.uni-tuebingen.de/c1/corpora.html

3.1.1 Korpora des Französischen

Im Bereich des Französischen wird die Korpussituation dominiert vom 1977 gegründeten Institut Nationale de la Langue Française (INaLF), das seine Aufgaben im lexikologischen und morphologischen Bereich angesiedelt sieht:

Les missions de l'INaLF se rassemblent autour du thème fédérateur de l'étude lexicologique et morphologique du français, c'est-à-dire du mot français dans la variété de ses conditions d'emploi, et tout naturellement du texte français dans la diversité des genres et des domaines. (Martin 1997: 37)

und diese Aufgabe wie folgt beschreibt:

L'INaLF a développé des programmes de recherche sur la langue française, principalement sur son vocabulaire. Les données (lexicales et textuelles), traitées par des systèmes informatiques spécifiques et originaux, constamment enrichies et renouvelées, portent sur divers registres du français : langue littéraire (du XIVe au XXe siècle), langue courante (écrite, parlée), langue scientifique et technique (terminologies), régionalismes. (Présentation).

Das Institut entwickelt also Datenbanken, die alle Register des Französischen umfassen sollen. Begonnen hat diese Arbeit aufgrund der 1957 von der französischen Regierung angeregten Erstellung eines neuen französischen Wörterbuchs, des Trésor de la langue française. Dieses Wörterbuch, das in der Zwischenzeit 16 Bände und einen Supplementband umfaßt, basiert auf einer computerlesbaren Datenbank, FRANTEXT, die derzeit 180 Millionen Wortformen aus fünf Jahrhunderten (16. - 20 Jh.) enthält und anhand verschiedener Projekte kontinuierlich weiter ausgebaut wird (cf. Produits u. Martin 1997: 37). Die in der Datenbank enthaltenen Texte sind zu ca. 80% literarischer, zu ca. 20% wissenschaftlicher und technischer Natur (cf. Dendien 1994: 63). FRANTEXT ist zwar über das Internet ansprechbar (cf. Produits), Recherchen können aber nur von abonnierten Mitgliedern getätigt werden.

Die CD-ROM DISCOTEXT dagegen, die einen Ausschnitt von ca. 300 Texten des 19. und 20. Jahrhunderts aus FRANTEXT enthält, ist ein kommerzielles Produkt (cf. Van Dijk-CNRS-INalF 1994). Der Trésor de la langue française selbst liegt bisher nur in traditioneller Buchform vor, eine elektronische Version (TLFI) ist aber seit 1993 in Bearbeitung (cf. Dendien 1994: 63, Produits u. Martin 1997: 41).

Zum INaLF gehört auch das Laboratoire de Lexicométrie et Textes Politiques, dem es u.a. obliegt, ein Archiv geschriebener sozio-politischer Texte aufzubauen (cf. Juillard 1994: 162-164). 1981 wurde zudem zwischen dem Centre National de la Recherche Scientifique und der University of Chicago ein gemeinsames Projekt mit dem Titel American and French Research on the Treasury of the French Language (ARTFL) gestartet, das von einem Konsortium aus abonnierten Institutionen betrieben wird mit dem erklärten Ziel, die dem Trésor zugrundeliegende Datenbank weiter auszubauen und dabei benutzungsfreundlich zu gestalten. Derzeit umfaßt das ARTFL-Korpus fast 2.000 vollständige Texte.

Fünf weitere Korpora des Französischen stehen über das Oxford Text Archive zur Verfügung. Dabei handelt es sich im einzelnen um:

18th century correspondence,
Echantillon de québecois parlé,
Modern business correspondence (Lyne, Anthony A.
Old French corpus
Sample of Nova Scotia Acadian French

Ein speziell der Gebrauchsprosa gewidmetes Korpus, wie sie etwa in den großen Zeitungen erscheint, findet sich darunter nicht.

Auch in dem periodisch von Michel Juillard verfaßten Bericht über neuere Forschungen in Frankreich gibt es keinen Hinweis auf ein aktuelles Zeitungskorpus (cf. Juillard 1990 u. 1994). An der Universität Paris III scheint allerdings ein Korpus von Zeitschriften aus den ersten Jahren dieses Jahrhunderts vorhanden zu sein (cf. Juillard 1990: 101). In dem 1994 veröffentlichten Bericht ist davon aber nicht mehr die Rede.

Dagegen ist ein auf der CD-ROM der ECI/MCI enthaltenes Korpus der französischen Zeitungssprache gewidmet. Es ist zwar mit 4.120.640 Wortformen recht umfangreich, besteht aber nicht aus ganzen Ausgaben, sondern lediglich aus einzelnen Texten, die im September/Oktober 1989 und Januar 1990 in Le Monde erschienen sind. Zudem ist die Kodierung äußerst rudimentär. So wurden lediglich die einzelnen Paragraphen notiert, es fehlen aber jedwelche Indikationen zu der Herkunft bzw. der Art der gespeicherten Texte (cf. ECI/MCI 1994:\Data\ECI1\ Fre01\).

Von einem der französischen Pressesprache gewidmeten Korpus berichtet auch Gunnel Engwall (cf. Engwall 1994: 64). Das Korpus wurde von einer Gruppe von Wissenschaftlerinnen und Wissenschaftlern zusammengestellt und enthält Zeitungs- und Zeitschriftentexte aus drei französischsprachigen Ländern, d.h. aus Belgien, Frankreich und der Schweiz. Eine der Voraussetzungen für die Aufnahme in das Korpus war, daß die Texte schon in maschinenlesbarer Form erworben werden konnten. Von den Tageszeitungen wurde außerdem verlangt, daß es sich um traditionelle, nicht nur an ein bestimmtes Publikum gerichtete Zeitungen mit weiter Verbreitung handelte. Was im besonderen die französischsprachige Presse in Frankreich betrifft, so besteht dieses Teilkorpus aus der Zeitung Le Monde und der Zeitschrift L'Express. Der Umfang für die landesspezifischen Korpora wurde auf ca. 1 Million Wortformen festgelegt. So bilden jetzt je dreizehn Ausgaben von Le Monde und von L'Express zusammen Le Costo, das Stockholmer Korpus. Die einzelnen Ausgaben stammen aus der Zeit zwischen März 1987 und Februar 1988 (cf. Engwall 1994: 66-67). Das Korpus kann jedoch aus Gründen des Copyright nicht als solches für Forschungen zur Verfügung gestellt werden. Auszüge oder Konkordanzen daraus zu erhalten, ist aber möglich (cf. Allstig 1997).

3.1.2 Korpora des Italienischen

Ein großes Korpus des geschriebenen Italienisch, das neuerdings als Referenzkorpus gilt, wird seit 1988 am Istituto di Linguistica Computazionale (ILC) des CNR in Pisa in Zusammenarbeit mit dem Verlag Mondadori erstellt. Das Korpus umfaßt derzeit etwa 15 Millionen Wörter und gliedert sich in drei Unterkorpora, d.h. in ein Presse-Korpus, ein Buch-Korpus und ein Korpus von technischen Berichten. Ein Unterkorpus der gesprochenen Sprache soll später noch dazukommen. Das der Pressesprache gewidmete Korpus umfaßt selbst 10.158.279 Wortformen und besteht sowohl aus Zeitungen als auch aus Zeitschriften (cf. Bindi / Calzolari / Monachini / Pirrelli / Zampolli 1994: 31). Dabei handelt es sich aber, wie aus dem elenco testi banca dati zu ersehen ist (cf. Bindi 1994), nicht um vollständige Ausgaben, sondern um einzelne Artikel, die in der Zeit zwischen 1985 und 1988 in den verschiedenen Zeitungen und Zeitschriften erschienen sind.

Daneben sind am Istituto di Linguistica Computazionale noch die folgenden Zeitungskorpora vorhanden:

Giornali italiani del 1974,
Periodici italiani del 1968 (LIF),
Periodici milanesi 1800-1847.

Die Korpora können aber wegen Copyright Restriktionen nicht abgegeben, sondern nur am Institut selbst untersucht werden (cf. Bindi 1994).

Das einzige der Gebrauchsprosa und nicht literarischen Texten gewidmete Korpus, das derzeit beim Oxford Text Archive geführt wird, ist das Corpus of Italian newspapers (cf. Burr 1993a). Teile desselben Korpus sind, in etwas anderer Form, auch in dem von der European Corpus Initiative (ECI) zusammengestellten Multilingual Corpus enthalten (cf. Burr 1994).

Neben diesem Zeitungskorpus sind auf der genannten CD-ROM auch noch ein aus 6 Erzählungen von Verga bestehendes Korpus (cf. ECI/MCI 1994: \eci1\ita01) sowie ein aus verschiedenen vor allem literarischen Texten bestehendes Korpus enthalten (cf. ECI/MCI 1994: \eci2\ita02).

Im Katalog der European Language Resource Association (ELRA) erscheint seit neuestem ein weiteres italienisches Zeitungskorpus, das aus Ausgaben von Il Sole 24 ore besteht (cf. The ELRA Catalogue). Bei dieser Zeitung handelt es sich nicht um eine traditionelle Tageszeitung, sondern um ein Finanzblatt.

Neben dem vom Centro di Ricerca der IBM Italia in Rom entwickelten Korpus (cf. Martelli 1989) und dem ebenfalls in Zusammenarbeit mit der IBM entstandenen und nach vier Erhebungszentren gegliederten Korpus des gesprochenen Italienisch LIP (cf. De Mauro / Mancini / Vedovelli / Voghera 1993), existiert auch ein der italienischen Literatur gewidmeter Tesoro, der allerdings nur solche Texte enthält, die vor 1375 entstanden sind. Dieser wird zwar am Istituto di Linguistica Computazionale in Pisa aufbewahrt, gehört aber der Accademia della Crusca und dem Centro per l'Opera del Vocabolario Italiano (OVI). Zu diesem Tesoro sagt Valentina Pollidori:

il Tesoro è attualmente costituito da un corpus testuale di circa 1200 titoli relativi a testi volgari (letterari e no) di norma anteriori al 1375. Questo insieme di testi, in continua implementazione, è al momento pari a circa 15 milioni di occorrenze riconducibili a circa 300.000 forme. - I testi, ordinati cronologicamente, sono inseriti in un archivio elettronico creato e gestito dai programmi DBT (Data base testuale di E. Picchi dell'ILC di Pisa). Tale archivio, nella versione ad uso esterno, è interrogabile per forme, insiemi di forme, cooccorrenze di forme e di insiemi di forme. I risultati delle interrogazioni, dati dai contesti delle opere rispondenti ai requisiti richiesti, possono essere stampati tanto su carta che su file ASCII. - Per quanto riguarda la possibilità di accesso esterno esiste da poco più di un mese la versione CLIENT-SERVER del programma, ma l'accesso è stato per adesso riservato a pochi studiosi che avendo già una certa consuetudine con il programma DBT e con il Corpus del TLIO si sono prestati a verificare tanto il funzionamento [sic] questa versione del programma quanto la coerenza dei dati testuali." (Pollidori 1997).

3.1.3 Korpora des Spanischen

In Spanien befaßt sich vor allem das Instituto Cervantes mit der Sammlung von Informationen zu in Spanien bestehenden oder im Entstehen begriffenen Korpora der spanischen Sprache. Von diesem Institut wurde 1994 zum ersten Mal, herausgegeben von Gerardo Arrarte und Joaquim Llisterri, auf der Grundlage eines Fragebogens, der an öffentliche und private Forschungseinrichtungen versandt worden war, ein entsprechender Bericht zusammengestellt (cf. Arrarte / Llisterri 1994). 1995 wurde ein zweiter Fragebogen verschickt und der Bericht dann aufgrund der eingegangenen Antworten überarbeitet und aktualisiert (cf. Fernández / Llisterri 1996). Der Bericht enthält Informationen zu 57 Korpora zur geschriebenen (29) und gesprochenen (28) spanischen Sprache. Weitere Berichte sollen in regelmäßigen Abständen folgen. Sowohl die letzte Fragebogenaktion als auch die Erstellung des aktualisierten Berichts erfolgte im Rahmen des auf Initiative des Instituto Cervantes gegründeten Observatorio Español de Industrias de la Lengua (OEIL), das als Koordinations- und Informationszentrum für die language industries in Spanien fungiert (cf. Fernández / Llisterri 1996: 3-4).

Bei den Korpora der geschriebenen spanischen Sprache wird im Bericht zunächst zwischen general purpose corpora und specific purpose corpora unterschieden. Jede der beiden Kategorien differenziert sich intern dann weiter in general-language corpora und sublanguage corpora. Diesen vier Kategorien werden sowohl die dem aktuellen Spanischen gewidmeten als auch die diachronischen Korpora zugeordnet.

Was die allgemeinen, für spezifische Zwecke erstellten Korpora betrifft, so werden sie dem Bericht zufolge zumeist zu Testzwecken im Bereich der Computerlinguistik oder von Industrien wie der IBM bzw. von Verlagen benutzt. Dagegen sind die im Entstehen begriffenen, für allgemeine Zwecke gedachten und mehrere Varietäten des modernen Spanischen umfassenden Korpora in (kommerzielle) Wörterbuchprojekte eingebunden. So hat der Verlag SGEL S.A in Zusammenarbeit mit der Universität von Murcia ein Korpus zum aktuellen Spanischen erstellt (CUMBRE). Ebenfalls dem aktuellen Spanischen gewidmet ist das vom Instituto de Lexicografia der Real Academia Españolain Angriff genommene Referenzkorpus, das Corpus de referencia del español actual (CREA), das literarische, journalistische, wissenschaftliche, technische und transkribierte mündlich geäußerte Texte enthalten wird, die zwischen 1975 und dem Jahr 2000 entstanden sind. Zu dem der gesprochenen Sprache gewidmeten Teil dieses Korpus vgl. auch Ballester / Santamaría / Marcos Marín 1993.

Von der gleichen Institution wird darüber hinaus noch ein diachronisches Korpus erstellt, das Corpus diacrónico del español (CORDE), das den Zeitraum zwischen den Anfängen der spanischen Sprache und dem Jahr 1975 abdecken soll. Ein weiteres diachronisches Korpus des Spanischen, das Archivio de textos hispánicos de la Universidad de Santiago (ARTHUS) wird, wie der Name schon sagt, an der Universidad de Santiago de Compostela erstellt (cf. Fernández / Llisterri 1996: 6-7). Zudem sind Korpora für spezifisch grammatische Untersuchungen geplant.

Auch die sogenannten sub-language Korpora, Korpora also, die einer bestimmten Varietät des Spanischen gewidmet sind, sind entweder für einen Einsatz im sprachtechnologischen und damit computerlinguistischen Bereich gedacht, oder vor allem im Rahmen von Spracherwerbsstudien entstanden. Allein mit dem an der Universidad Autónoma in Barcelona im Entstehen begriffenen und der spanischen Zeitungssprache gewidmeten Korpus, dem Corpus textual del española periodístico, wird kein spezifischer Zweck verfolgt (cf. Fernández / Llisterri 1996: 8-9). Was die Verfügbarkeit dieses der Zeitungssprache gewidmeten Korpus betrifft, so wurde im zurückgeschickten Fragebogen angegeben, daß geplant ist, das Korpus einmal für nicht kommerzielle Zwecke öffentlichen Forschungseinrichtungen zur Verfügung zu stellen. Die geplante Größe des Korpus wird dabei mit 6 MB angegeben (cf. Fernández / Llisterri 1996: 40).

Was die Verfügbarkeit der aufgeführten Korpora betrifft, so stellt sich diese Frage eigentlich nur für die wenigen schon abgeschlossenen Projekte. Bezogen auf letztere kommt der Bericht jedoch nicht gerade zu einem positiven Schluß:

Only one out of the written corpora that have been completed is defined as a 'public domain' resource by their developers, although 7 are available for non-commercial purposes to public research organizations. This produces a total of 8 available corpora, none of them being considered a 'general purpose general-language' corpus. Four of these corpora are mainly concerned with applications in Psycholinguistics, 2 describe the varieties of Spanish used in Chile and Argentina and only one contains technical texts. (Fernández/Llisterri 1996: 24).

Der vom Observatorio Español de Industrias de la Lengua erstellte Bericht erfaßt, wie oben angedeutet, nur die in Spanien selbst laufenden oder abgeschlossenen Projekte. Ein Überblick über Korpora, die außerhalb von Spanien im Entstehen begriffen sind, ist meines Wissens bisher nicht veröffentlicht worden. Der überaus umfangreichen und interessanten Darstellung zu Informatica y Humanidades im spanischsprachigen Bereich von Francisco A. Marcos Marín ist allerdings zu entnehmen, daß am King's College in London an der Erstellung eines Korpus zum gegenwärtigen Spanisch gearbeitet wird, dem Corpus of Contemporary Spanish (CCS):

La principal finalidad del proyecto es construir un compus [sic] computerizado del español contemporáneo, que sirva como instrumento lingüístico y tecnológico para comprobar hipótesis en distintos campos de la lingüística, incluidas la sociolingüística, la sintaxis, morfología, lingüística aplicada y terminología. (Marcos Marín 1994: 156).

Dieses Korpus besteht allerdings aus Stichproben und nicht aus ganzen Texten. Nach Marcos Marín umfaßte es 1992 5 Millionen Wörter und soll später zusammen mit einem Konkordanzprogramm auf CD-ROM veröffentlicht werden (cf. Marcos Marín 1994: 156-157).

Davon abgesehen ist aber aufgrund der konsultierten Internetseiten und den Veröffentlichungen in einschlägigen Fachzeitschriften davon auszugehen, daß die außerhalb von Spanien laufenden Korpusprojekte hauptsächlich der literarischen Sprache gewidmet sind. Informationen zu spanischen Korpora finden sich unter anderem auf den folgenden Internetseiten: Linguistic Data Consortium, Spanish and Portuguese corpora, Oxford Text Archive, Corpus Linguistics. Die meisten der genannten Seiten enthalten Links zu weiteren Quellen.

Das oben genannte und bisher nicht abgeschlossene Projekt eines Corpus textual del española periodístico ist aber nicht das einzige Korpus, das der Zeitungssprache gewidmet ist. So enthält der von der European Corpus Initiative (ECI) zusammengestellte Multilingual Corpus auch Ausgaben der beiden spanischen Zeitungen El Diario Sur (Malaga) und El Diario Vasco (cf. ECI/MCI 1994). Die beiden Korpora setzen sich aus 1991 erschienenen Zeitungsausgaben zusammen. Das Korpus von El Diario Sur enthält außer einer Kodierung von Paragraphen keinerlei Indikationen hinsichtlich der Textdeterminanten wie Ausgabe, Textart etc. Auf die schlechte Qualität des aus El Diario Vasco bestehenden Korpus weist schon das dem Korpus beigegebene Editorial file ausdrücklich hin (cf. ECI/MCI 1994: Data\Eci4\Spa03\Spa03.edt). Daneben vertreibt das Linguistic Data Consortium (LDC) eine Spanish News Text Collection auf CD-ROM und auch im Katalog der European Language Resource Association (ELRA) findet sich, wie oben schon angemerkt, ein Korpus, das unter anderem die spanische Zeitung Expansion enthält.

Was dagegen die Spanish News Text Collection betrifft, die sich aus der mexikanischen Zeitung El Norte von 1993 und zwischen 1993 und 1995 erstellten spanischen Agenturberichten verschiedener Presseagenturen (Agence France Press, Associated Press Worldstream und Reuters) zusammensetzt, so steht diese seit Dezember 1996 ausschließlich Mitgliedern des Linguistic Data Consortium zur Verfügung.

Zuletzt muß noch darauf hingewiesen werden, daß in der spanischen Abteilung des Romanischen Seminars an der Universität Götheborg zwei weitere Korpora des heutigen Spanisch bestehen. Es handelt sich dabei zum einen um die Banco de Datos de Prensa Española 1977 (PE77), die 1.931.639 Wortformen umfaßt und aus Texten besteht, die den beiden spanischen Presseorganen El País und Triunfo entnommen sind, zum anderen um die Banco de Datos de Once Novelas Españolas 1951-1971 (ONE71), die aus 1.005.369 Wortformen besteht. Wie David Mighetto, einer der Ersteller der Korpora mitgeteilt hat, können beide Korpora nicht als solche zur Verfügung gestellt werden, sie können allerdings für Forschungszwecke genutzt werden (cf. Mighetto 1997). Es bedarf dazu lediglich der Unterzeichnung eines Benutzungsvertrages, der entweder bei David Mighetto oder Gerhard Bauhr, die beide in der spanischen Abteilung der Universität Götheborg tätig sind, angefordert werden kann.