Frage spielt keine Rolle bei:
- ItalAnt
- italienische Sprache vor 1375
- Menge der existierenden schriftlichen Zeugnisse ist bekannt und zudem relativ begrenzt
- alle Zeugnisse können in ein Korpus eingehen
- derzeit 1960 Texte oder 21.779.245 Wortformen
- Altfranzösisch
- ‚toten’ Sprachen wie das Altgriechische, das klassische bzw. mittelalterliche Latein oder das Altkirchenslavische
Sprachen / Sprachstufen sind selbst zu Korpora erstarrt (cf. Bungarten 1979: 31)
Diskussion um Repräsentativität
- wurde in den 70er und 80er Jahren des 20. Jahrhunderts besonders heftig geführt
- hat die Erstellung von Korpora v. a. zu den modernen Sprachen und Varietäten stark behindert
dagegen Erstellung des Thesaurus Linguae Graecae schon 1972 begonnen
Frage spielt auch kiene Rolle bei
Frage spielt eine Rolle dort, wo die Grundgesamtheit / Population der sprachlichen Manifestationen nicht präzise definiert ist
Stichprobenkorpora
- Übertragung des sozialwissenschaftlichen Strebens nach Repräsentativität
- Versuch, traditionelle statistische Methoden für Sprachuntersuchungen nutzbar zu machen
- Untersuchungen sollen Verhältnisse der Gesamtpopulation oder Grundgesamtheit, der die Proben entnommen sind, abbilden
- Ergebnisse sollen auf diese hin verallgemeinert werden können
Beispiel: Politbarometer - Stichprobe von 1260 Personen ist repräsentativ für die Population der wahlberechtigten Deutschen, da Population und ihre Gesamtheit bekannt ist und die Verteilung von Merkmalen wie Alter, Herkunft, Bildungsgrad ebnfalls bekannt sind.
Erste Computerkorpora
Brown University Standard Corpus of Present-Day American English = Brown Corpus (1964)
- 1 Million Wortformen
- sollte das 1961 moderne geschriebene amerikanische Englisch repräsentieren
- 500 Zufallsstichproben von jeweils 2000 Wortformen aus literarischen und journalistischen Texten
- auf Lochkarten übertragen
- der Auswahl der Texte wurde eine Typologie zugrunde gelegt
- sollte Vielfalt der in Amerika zu dieser Zeit auf Englisch geschriebenen Texte abbilden
Lancaster-Oslo / Bergen Corpus = LOB (1978)
- britisches Pendant zum Brown Corpus
- 1 Million Wortformen
- sollte das 1961 moderne geschriebene britische Englisch repräsentieren
- 500 Zufallsstichproben von jeweils 2000 Wortformen aus literarischen und journalistischen Texten
International Corpus of English (noch nicht fertig)
- besteht aus 15 Korpora zum in den unterschiedlichen Weltregionen gesprochenen Englisch
- jedes Teilkorpus
- 1 Million Wortformen
- besteht aus 500 zufällig erhobenen Stichproben von 2000 Wortformen
- Die Auswahl der Texte erfolgt bei allen Teilkorpora auf der Grundlage ein und derselben Typologie
Die Größe von Stichproben
es besteht keine Einigkeit
- Umfang scheint auch von Untersuchungsgegenstand abzuhängen
- Umfang von 2000 Wörtern scheint bei Untersuchung von lexikalischen Phänomenen angebracht zu sein
- Umfang von 2000 Wortformen erweist sich bei Untersuchung syntaktischer Strukturen oft als zu klein
- Umfang von 2000 Wortformen erweiset sich bei Untersuchungen zur Variation zumeist als zu klein
Diskussion kann aber nicht grundsätzlich geführt werden.
the suitability of the sample depends on the specific study that is undertaken, and that there is no such thing as the best, or optimum, sample size as such. (de Haan 1992: 3).
Stichprobenerhebung
- nicht nur die Größe der Stichproben steht zur Debatte, sondern statistische Stichprobenerhebung als solche
- die Integrität von Texten wird nicht respektiert
- es wird so getan, als ob sprachliche Phänomene zufällig über den Text verteilt sind und es deshalb keine Rolle spielt, aus welchem Teil eines Buches zum Beispiel eine Stichprobe stammt
- Sprachliche Phänomen sind aber nicht gleichmäßig über den Text verteilt (cf. Sinclair 1991: 19)
- Texte bestehen nicht aus zufällig ausgewählten Wörtern, sondern die Abfolge von Wörtern ist bedingt:
these words are certainly not selected randomly (i.e. they are sequential), and the adequacy of representation thus depends on the sample length relative to the total text length. (Biber 1993: 248).
Repräsentativitätskriterium
im Zusammenhang mit den immer größer werdenden Korpora und mit ihrer verstärkt auf ein bestimmtes Ziel ausgerichteten Erstellung tritt Repräsentativitätskriterium immer mehr in den Hintergrund (cf. Svartvik 1992: 11)
Problem vor allem dann,
- wenn Korpus ein Referenzkorpus sein soll, das Sprechen einer Gemeinschaft zu einem bestimmten Zeitpunkt repräsentiert
- wenn Rückschlüsse auf die Gesamtheit dieses Sprechens möglich sein sollen
- mehrheitlich dazu produziert, um als Grundlagen für die Erstellung von Wörterbüchern, Grammatiken und anderen Nachschlagewerken zu fungieren:
a corpus must be 'representative' in order to be appropriately used as the basis for generalizations concerning a language as a whole; for example, corpus-based dictionaries, grammars, and general part-of-speech taggers are applications requiring a representative basis (Biber 1994: 377).
- Referenzkorpora dienen auch kommerziellen Interessen
- werden zumeist in Zusammenarbeit von akademischen Institutionen und Unternehmen erstellt
B(ritish) N(ational) C(orpus)
- 1991 unter der Leitung der Oxford University Press begonnen
- 1994 abgeschlossen
- beteiligt waren:
- Lexikaproduzenten wie Addison-Wesley, Longman, Larousse, Kingfisher und Chambers,
- Oxford University Computing Services
- Lancaster University's Centre for Computer Research on the English Laguage
- British Library's Research and Innovation Centre.
Repräsentativität von Korpora bleibt aber "an act of faith" (Leech 1991: 27, Fn. 29):
- bei historischen Einzelsprachen sind weder die verschiedenen Arten oder Varietäten der Sprache genau definiert
- noch ist klar, durch welche sprachlichen Einheiten, seien es Wortformen, Sätze oder Texte, sich die Population definieren lässt
- nicht endliches Ausmaß der Population, d. h. des Sprachmaterials selbst
"it will always be possible to demonstrate that some feature of the population is not adequately represented in the sample." (Clear 1992: 21).
Variabilität
Douglas Biber versucht
- Lösung des Repräsentativitätsproblems anhand von statistischen Untersuchungen näher zu kommen
- Prinzipien dafür zu entwickeln, wie ein Korpus aufgebaut sein muss, damit seine Untersuchung die Sprache als Ganzes betreffende Generalisierungen erlaubt.
- Repräsentativität wird nicht primär an der Größe des Korpus bzw. der einzelnen Stichproben festgemacht
- ausschlaggebend ist das Maß, in dem das Korpus die sprachliche Variabilität einer Population respektiert
Variabilität lässt sich festmachen an:
- der Vielfalt von Texttypen
- der vielfältigen Verteilung sprachlicher Phänomene
Representativeness refers to the extent to which a sample includes the full range of variability in a population. [...] Thus a corpus design can be evaluated for the extent to which it includes: (1) the range of text types in a language, and (2) the range of linguistic distributions in a language. (Biber 1993: 243).
Sampling frames
Population muss anhand ihrer Grenzen und der verschiedenen situationell bedingten Textkategorien sowie deren weiteren Differenzierung in Unterkategorien genau definiert werden:
Definition of the target population has at least two aspects: 1) the boundaries of the population - what texts are included and excluded from the population; and 2) hierarchical organization within the population - what text categories are included in the population, and what are their definitions. (Biber 1994: 378).
Table 1 Situational parameters listed as hierarchical sampling strata.
- Primary channel: written / spoken / scripted speech
- Format: published / not published (+ various formats within 'published')
- Setting: institutional / other public / private-personal
- Addressee:
- plurality: unenumerated / plural / individual / self
- presence (place and time): present / absent
- interactiveness: none / little / extensive
- shared knowledge: general / specialized / personal
- Addressor:
- demographic variation: sex, age, occupation, etc.
- acknowledgement: acknowledged individual / institution
- Factuality: factual-informational / intermediate or indeterminate / imaginative
- Purposes: persuade, entertain, edify, inform, instruct, explain, narrate, describe, keep records, reveal self, express attitudes, opinions, or emotions, enhance interpersonal relationship, ...
- Topics: ...
Distribution der sprachlichen Phänomene ist abhängig von jeweiligem sampling frame
Textkategorien
- Textkategorien, die situationell bestimmt sind = registers oder genres
registers are based on the different situations, purposes, and functions of text in a speech community (Biber 1993: 245)
- Textkategorien, die aufgrund von sprachlichen Kriterien abgegrenzt werden = text types
Text types cannot be identified on a priori grounds; rather they represent the groupings of texts in a corpus that are similar in their linguistic characterizations, regardless of their register categories. (Biber 1993: 256)
Beispiel: Sampling frame - «Korpus romanischer Zeitungssprachen Eurpawahlen 1994»
Erhebung
nach Definition eines solchen Rahmens ist Erhebung nach Strata möglich
im Unterschied zur Erhebung nach dem statistischen Zufallsprinzip werden alle Schichten mit absoluter Sicherheit berücksichtigt (cf. Biber 1993: 243-244).
- Textkategorien und Unterkategorien können nicht, wie bei soziologischen Untersuchungen üblich, proportional zu ihrem Anteil an der Gesamtpopulation erhoben werden:
Language corpora require a different notion of representativeness, making proportional sampling inappropriate in this case. (Biber 1993: 247).
- sprachliche Population lässt sich nicht wie die einer bestimmten Gesellschaft genau bestimmen:
It is not linguistically valid to undertake a simple random sampling procedure for the total population, as this population cannot be exactly or concretely determined (Engwall 1994: 51).
proportionale Erhebungen
- repräsentieren nur das zahlenmäßige Gewicht
- nicht tatsächliche Bedeutung der Kategorien
- werden Ausmaß der in einer Sprache gegebenen Variation nicht gerecht:
there are two main problems with proportional language corpora. First, proportional samples are representative only in that they accurately reflect the relative numerical frequencies of registers in a language - they provide no representation of relative importance that is not numerical. Registers such as books, newspapers, and news broadcasts are much more influential than their relative frequencies indicate. Secondly, proportional corpora do not provide an adequate basis for linguistic analyses, in which the range of linguistic features found in different text types is of primary interest. (Biber 1993: 247-248).
ähnlich Jeremy Clear:
- zu repräsentierende Population definiert sich idealiter über die gesamte Sprachproduktion der in Frage stehenden Sprachgemeinschaft:
Ideally the population [...] would be defined in terms of the total language production, since this would take account of all the millions who constitute the speech community. (Clear 1992: 24),
- kann aber so nicht erfasst werden
- ihre repräsentative Gewichtung würde Rezeption missachten
- würde zu Lasten der Sprachproduktion gehen, die wie die der Medien an der Rezeption den größten Anteil hat (cf. Clear 1992: 25)
Produktion: Wahrscheinlichkeit , mit der ein Mitglied der Sprachgemeinschaft ein bestimmtes Wort oder eine bestimmte Konstruktion verwendet
Rezeption: Wahrscheinlichkeit, mit der dasselbe Mitglied mit einem bestimmten Wort oder einer bestimmten Konstruktion in Berührung kommt (cf. Clear 1992: 24).
Beide Perspektiven müssen bei der Erstellung eines Referenzkorpus berücksichtigt werden:
we can define the language to be sampled in terms of language production (many producers, few receivers) and language reception (few producers, many receivers). (Clear 1992: 26).

BNC trägt als erstes modernes Korpus diesen Überlegungen Rechnung:
Written Corpus - insgesamt 90 Millionen Wortformen - der geschriebenen Sprache gewidmet - nicht nur publizierte Texte wurden berücksichtigt, sondern auch nicht publizierte wie Briefe, Tagebücher etc..
Spoken Corpus - insgesamt zehn Millionen Wortformen - der gesprochenen Sprache gewidmet zwei Teilkorpora wurden erstellt:
- regional gestreutes Korpus, dem demographische Kriterien wie Schicht, Alter, Geschlecht, Bildung etc. zugrunde liegen und das spontane authentische Gespräche enthält,
- ein regional gestreutes Korpus, dem kontextuelle Parameter zugrunde liegen und Transkriptionen von Textkategorien wie Vorlesungen, Fernseh- und Radiodiskussionen, Unterrichtsgespräche, Verkaufsveranstaltungen, Sitzungen, Interviews, Predigten, politische Reden, Sportkommentare etc. enthält - sie sind im Verhältnis zur alltäglichen Produktion zwar relativ selten und werden nur von wenigen produziert, sie richten sich aber an ein umso größeres Publikum und sind daher unter dem Aspekt der Rezeption von Bedeutung (cf. Crowdy 1993 und Creating the BNC).
Korpuserstellung
Während die Repräsentativität eines Korpus bezüglich der außersprachlichen Variabilität der Population schon vor der eigentlichen Korpuserstellung festgelegt werden kann, ist dies, wie Bibers empirische statistische Untersuchungen zeigen, bei der Repräsentativität in bezug auf die Verteilung von sprachlichen Phänomenen in Texten und über Texte und Textkategorien hinweg gerade nicht der Fall:
the parameters of a fully representative corpus cannot be determined at the outset. (Biber 1993: 256).
bei der Korpuserstellung muss zyklisch vorgegangen werden:
- zunächst ist ein hinsichtlich von Varietäten breit angelegtes Pilotkorpus zu erstellen
- verschiedene Strata sind auf Variation sprachlicher Phänomene und Texttypen hin zu untersuchen
- Ergebnisse bedingen weiteren Ausbau
- Ausbau wird immer wieder anhand empirischer Untersuchungen kontrolliert
- erst wenn Korpus vollständig erstellt ist, stehen Kriterien seines Aufbaus endgültig fest:
the design of a representative corpus is not truly finalyzed until the corpus is completed (Biber 1993: 256)
BNC Spoken Corpus:
- zunächst für beide Teilkorpustypen ein Pilotkorpus erstellt
- bei der Zusammenstellung der in das context-governed Korpus aufzunehmenden Textkategorien wurde flexibel verfahren
- die Erhebungsmethode wurde für jede Unterkategorie individuell bestimmt (cf. Crowdy 1993: 262).
Full-text Korpora
mit der Zeit hat sich bezüglich der einzelnen Texte eine neue Erhebungsmethode durchgesetzt
traditionelle Korpora (z. B. Brown und LOB) sind nach statistischem Zufallsprinzip vorgegangen
wegen des im Voraus bestimmten (geringen) Umfangs der Stichprobe wurde Integrität von Texten nicht respektiert
Biber u. a. stellten Zufälligkeit und statistische Repräsentativität solcher Erhebungen in Frage, denn:
these words are certainly not selected randomly (i.e. they are sequential), and the adequacy of representation thus depends on the sample length relative to the total text length. (Biber 1993: 248).
Repräsentativität eher dann garantiert, wenn auch auf Textebene Erhebung nach Strata praktiziert wird, die zumindest die Abgeschlossenheit von Textkomponenten respektiert (cf. Biber 1994: 388).
= Anfangspunkt einer Tendenz, die generell immer mehr zur Aufnahme ganzer Texte in Korpora führte
- kontextuell determinierter Teil des BNC Spoken Corpus Obergrenze von 10.000 Wörtern wurde für einzelne Texte einer Textkategorie definiert
- bei dem der geschriebenen Sprache gewidmeten Teil des BNC wurde die Grenze auf 45.000 Wörter festgesetzt
- unabhängig von der Wortzahl wurde auf die Integrität von Zeitungs- oder Zeitschriftenexemplaren geachtet (cf. http://www.natcorp.ox.ac.uk/corpus/creating.xml)
Leitner (1992: 51 u. 62, Fn. 17) argumentiert bei Erstellung des International Corpus of English dafür, dass trotz des a priori fixierten Stichprobenumfangs von 2.000 Wörtern möglichst ganze Texte gesammelt werden sollten.
Projekt des Corpus of Spoken American English, das 200.000 Wörter umfassen soll, setzt sich zum Ziel, "to include whole conversational interactions as far as possible" (Chafe / Du Bois / Thompson 1991: 67).
John Sinclair hat Aufnahme ganzer Texte in ein Korpus zum Prinzip erklärt:
- sprachliche Phänomene sind auch in Büchern nicht gleichmäßig über den ganzen Text verteilt
- Korpus, das aus ganzen Dokumenten besteht, kann für alle möglichen Untersuchungen die Grundlage bilden (cf. Sinclair 1991: 19)
- aus ganzen Texten lassen sich ja jederzeit Stichproben entnehmen
Rossini Favretti (2001: 371): Frage, ob Korpora aus vollständigen Texten oder aus Textfragmenten bestehen sollen, ist bis heute nicht geklärt:
- vollständige Texte erlauben hinsichtlich der Länge keine Standardisierung
- Aufnahme von Textfragmenten führt zu stärkeren Präsenz der Subjektivität und zur Dekontextualisierung der ausgewählten Sequenzen
- es ist deshalb angebracht, bei jeder Wahl die Grenzen, die diese impliziert, zu bedenken und explizit zu machen (cf. Rossini Favretti 2001: 371).
|