2. Empirische Untersuchungen

Empirische Sprachdaten spielen beim Studium von Sprachen seit Anfang eine Rolle.

Neben einer philosophischen oder theoretischen Betrachtung von Sprache gibt es immer eine Sprachbetrachtung, die sich auf empirische Daten stützt

Durch den von Ferdinand de Saussure bewirkten Strukturalismus in der Sprachwissenschaft und dann durch den Generativismus wurde die empirische Richtung an den Rand gedrängt.

Widerspruch gegen:

La raccolta di dati ricorrenti nell’uso così come la costituzione e l’analisi di corpora hanno una lunga tradizione negli studi linguistici, in particolare nell’ambito dello strutturalismo. (Rossini Favretti 2001: 368).

2.1 Sprachdaten

Die historisch vergleichende Sprachwissenschaft konnte untergegangene Sprachen oder Sprachstufen nur deshalb rekonstruieren, weil immer mehr Daten zum Sanskrit, zum Griechischen und Lateinischen und dann zu den germanischen und romanischen Sprachen verfügbar wurden.

Die Dialektologie hat schon bald Verfahren der Datenerhebung wie Fragebögen, Umfragen vor Ort und später dann Sprachaufnahmen entwickelt, vgl.:

Sprachatlanten beruhen auf der Sammlung von Sprachdaten

  • Atlas linguistique de la France (ALF) von Jules Gilliéron (1854-1926), der zwischen 1902 und 1910 erstellt und publiziert wurde und sich auf den Zeitraum zwischen 1897 und 1901 bezieht und hierfür die Ausdehnung der Dialekte anhand von 638 Meßpunkte auf 1421 Karten zeigt (digitale Version),
  • der ALPI und die regionalen Atlanten zu Andalusien (ALEA), Aragón, Navarra und der Rioja (ALEANR) etc.

Frühe Beispiele quantitativer Sprachuntersuchungen

  • Cruden, A. (1736): Complete concordance of the Old and the New Testament. London: Lutterworth Press.
  • Kaeding, F. W. (1897): Häufigkeitswörterbuch der deutschen Sprache. Steglitz bei Berlin: Selbstverlag des Herausgebers. Dieses Häufigkeitswörterbuch beruht auf sage und schreibe ca. 11 Millionen Wörtern . Kaedig's Ziel war es, die statistische Verteilung der Buchstaben im Deutschen zu bestimmen, um so die für ein schnelles Arbeiten günstigste Anordnung der Tasten auf der Schreibmaschine herauszufinden (cf. Spina 2001: 19).
  • Thorndike, E. L. (1921): Teacher's Wordbook. New York: Columbia Teachers College. Hierbei handelt es sich um eine Sammlung von ca. 4,5 Millionen Wörtern, die der Erstellung von Häufigkeitslisten für den Englischunterricht dienen sollte. Die Wörter stammen zumeist aus der Bibel und zu einem kleineren Teil aus literarischen Texten des 19. Jahrhunderts.
  • Ab den 30er Jahren untersucht auch die Prager Schule auf der Grundlage von kleinen Korpora die Frequenz bestimmter Einheiten (Silbenstruktur, Redeteile) und deren Distribution.
  • Ähnliche Verfahren kommen auch bei der Untersuchung der Indianersprachen in Nordamerika zum Einsatz.

Sprachstatistik

Gegen Mitte des 20. Jahrhunderts wird die Sprachstatistik entwickelt. Wichtige Namen sind:

  • George Zipf (1935 und 1949),
  • Pierre Guiraud (1954: Les caractères statistiques du vocabulaire)
  • Gustav Herdan (1960) (cf. Spina 2001: 18-20).

Die ersten elektronischen Rechenmaschinen gab es in den 40er-50er Jahren des 20. Jahrhunderts. Sie waren aber nur den wenigsten zugänglich.

2.2 Computer und Geisteswissenschaften

2.2.1 Der Index Thomisticus

Der erste Einsatz des Computers in den Geisteswissenschaften erfolgte Mitte der 40er Jahre des 20. Jahrhunderts

Roberto Busa SJ wollte eine Konkordanz zum Gesamtwerk von Thomas von Acquin erstellen.

Er hatte im Rahmen seiner Tesi di Laurea zum Konzept "Präsenz" im Werk von Thomas von Acquin alle vorhandenen gedruckten Indices zu den lateinischen Wörtern praesens und praesentia durchsucht

Dabei war er zu dem Schluss gekommen,

  • dass bei Thomas von Acquin dieses Konzept mit dem Gebrauch der Präposition in verbunden war
  • dass entgegen der verbreiteten Meinung gerade Funktionswörter allgemein viele Hinweise auf den Zusammenhang zwischen der Vorstellungswelt eines Autors / einer Autorin und den Wörtern, die er oder sie zu ihrer Beschreibung einsetzt, liefern können.


Keine der manuelle erstellten Konkordanzen enthielt aber alle Belegstellen zu Wörtern wie in, sum oder et

Er plante deshalb Ende der 40er Jahre einen Index Thomisticus, der alle ca. 9 Millionen Wörter des Werks von Thomas von Acquin enthalten sollte.

Ihm war klar, dass ein solcher Index nur mit Hilfe einer Maschine erstellt werden konnte.

1949 nahm er Kontakt mit der IBM auf

1953 gründete er das Centro per l'Automazione dell'Analisi Letteraria (CAAL) in Gallarate.

Arbeit am Index Thomisticus

  • Lochkarten und Sortiermaschine
  • später Magnetbänder
  • Arbeit wurde 33 Jahre später mit Hilfe eines großen IBM Mainframe Computers und eines Computer-gesteuerten Druckers beendet.

Der Index umfasste 70.000 Druckseiten:

  • mehrere Indices
  • eine direkt vom Computer produzierte Liste der Belegstellen aller Wortformen
  • eine in weiten Teilen manuell erstellte lemmatisierte Konkordanz

Arbeit dauerte mehr als eine Million Personenstunden

1992 "Thomae Aquinatis Opera Omnia cum hypertextibus in CD-ROM"

Busa nannte die von ihm begründete Disziplin Informatica linguistica (cf. Spina 2001: 20)

Web-Ausgabe des Index Thomisticus

Noch Ende der 70er Jahre war der Zugang zu IBM Mainframes für die meisten Leute so schwierig, dass sie eher auf die Idee verfielen, sich eine Handsortiermaschine zu kaufen. Diese bestand aus Lochkarten, einer Halteschablone, zwei Rollen von Kartenrettern, einer Kerbzange und einer Sortiernadel.

2.2.2 Empirische Sprachuntersuchungen ohne Computer

Staatsexamensarbeit Präteritum und Perfekt im Französischen und Spanischen. Experimentelle – statistische Untersuchung der Zeitungssprache

Mit Präteritum und Perfekt sind Passé simplepassé composé bzw. Indefinido / Perfecto simplePerfecto compuesto gemeint.

2.2.2.1 Abgrenzung des Sprachmaterials

syntopisch

1 Punkt im Raum

Paris

Madrid

synstratisch

1 Sprachniveau

Presse

Presse

synphasisch

1 Sprachstil

Tageszeitungen

Tageszeitungen

synchronisch

1 Sprachzustand

April 1976

April 1976

2.2.2.2 Zusammensetzung des Korpus

 

21.04.1976

22.04.1976

Paris

Le Monde

Le Monde

 

Le Figaro

Le Figaro

 

L’Humanité

L’Humanité

Madrid

ABC

ABC

 

YA

YA

 

Informaciones

Informaciones

Hypothesen, die sich auf Beschreibungen des Gebrauchs der Tempora im Französischen und Spanischen stützten:

  1. im gesprochenen Französisch wird das passé simple nicht gebraucht
  2. das Indefinido wird auch im gesprochenen Spanisch gebraucht.

deshalb:

  • die spanischen Zeitungen ABC, YA und Informaciones wurden eher zufällig ausgewählt
  • die französischen Zeitungen wurden so ausgewählt, dass nicht nur eine schriftsprachliche Norm wie die von Le Monde, sondern auch eine dem Gesprochenen näher kommende Norm wie die von l’Humanité berücksichtigt werden konnte. Von Le Figaro wurde angenommen, dass ihm sprachlich eher eine Mittelstellung zukommt.

2.2.2.3 Quantifizierung des Sprachmaterials

Mit Hilfe von statistischen Methoden sollte festgestellt werden, ob die Realisierungen von Passé simple / Passé composé bzw. Perfecto compuesto / Indefinido von extralinguistischen Variablen (Zeitungen, Sparten etc.) abhängen.

Deshalb musste das Sprachmaterial quantifiziert werden.

Was soll als Grundgesamtheit / Population betrachtet werden?

  • Gesamtzahl der Wortformen
  • Gesamtzahl der Seiten
  • Gesamtzahl Passé simple / Passé composé bzw. Perfecto compuesto / Indefinido

Die Zahl der Wortformen hätte das Bild verfälscht, da Le Monde z. B. einen weniger verbalen Stil aufwies als die anderen beiden Zeitungen und so grundsätzlich eine geringere Anzahl von Passé simple / passé composé zu erwarten war.

Die Zahl der Seiten als Grundgesamtheit zu nehmen wäre zwar das Einfachste gewesen, hätte aber auch zu wertlosen Ergebnissen geführt, weil die Seiten der verschiedenen Zeitungen:

  • nicht gleich groß sind,
  • nicht gleich eng beschrieben sind,
  • mehr oder weniger Bildmaterial enthalten,
  • mehr oder weniger Werbung aufweisen.


Die Gesamtzahl von Passé simple / Passé composé bzw. Perfecto compuesto / Indefinido berücksichtigt die Länge der einzelnen Fragmente des Sprachmaterials nicht und erlaubt deshalb keine Aussagen zur Signifikanz von eventuell aufscheinenden Unterschieden.

Grundgesamtheit = Gesamtzahl der finiten Verben

2.2.2.4 Auszählung und Signifikanztests

Quantifizierung

2.2.2.5 Automatisierungsversuche

Für eine spätere Klassifizierung und Analyse wurden die einzelnen Belegstellen auf Lochkarten übertragen. Durch die Erstellung eines bestimmten Schlüssels und seine Anwendung auf die einzelnen Lochkarten (Kodierung per Perforierung) mittels bestimmter Werkzeuge sollte es möglich sein, zumindest das Herausfiltern von Belegstellen, denen ein bestimmtes Merkmal (z. B. Aktiv, Passiv, Zugehörigkeit zu einer bestimmten Rubrik etc.) gemeinsam war, zu automatisieren.

2.2.3 Damaliger Forschungsstand

  • Es gab fast keine (systematischen) Untersuchungen zum Sprachgebrauch allgemein und zum Tempusgebrauch in den Zeitungen im Besonderen.
  • Abgesehen davon,
    • dass in einigen Arbeiten über die Tempus- und Aspektproblematik auch eine globale Aussage zum häufigeren oder weniger häufigen Gebrauch der einen oder der anderen Form gemacht wurden (cf. Alarcos Llorach 1947, Wandruszka 1966)
    • dass zusammen mit andersartigem Sprachmaterial auch einmal 10 Nummern einer spanischen Wochenzeitung in einer statistischen Untersuchung erschienen (cf. Barrera-Vidal 1972),
  • gab es damals nur zwei relevante Untersuchungen:

Paul Imbs (1960) führt in seinem Buch zum Tempusgebrauch im modernen Französischen eine unveröffentlichte Untersuchung zur Zeitungssprache von Robert Martin (1960) an.

Er nennt aber nur die absoluten und relativen Frequenzen der von Martin ausgezählten Verbformen.


Arbeit

Zeitungen

Finite Verben

Passé simple

Passé composé

Präsens

Martin

19.08.1959

18766

1396

3953

8987

Burr

21./22.04.1976

19397

381

3396

11180

Ein Vergleich der Ergebnisse wäre besonders interessant gewesen wegen

  1. des großen Unterschieds bei der Frequenz vor allem des Passé simple,
  2. des Unterschieds hinsichtlich des Erscheinungsjahrs der Zeitungen,
  3. der von Martin ebenfalls vorgenommenen Unterscheidung nach Sparten, zu der wir allerdings von Imbs (1960: 221) nichts erfahren.

Zezula (1969) führt seine Untersuchung des Passe simple in der Pressesprache an einem sehr umfangreichen Material durch:

  • 80 Tageszeitungen
  • 25 Zeitschriften

Er teilt dieses Sprachmaterial in verschiedene Rubriken ein.

Die Aussagekraft der festgestellten Verteilung auf die einzelnen Rubriken ist aber mehr als gering, denn

  1. als Grundgesamtheit wird die Zahl der Seiten (3391) angegeben,
  2. auf der Basis der Zahl der Seiten werden die für die einzelnen Zeitungen erzielten absoluten Frequenzen miteinander verglichen,
  3. obwohl Le Monde einen mehr als siebenseitigen Anzeigenteil hat, in dem, wie Zezula selbst bemerkt, das Passe simple nicht vorkommt (cf. Zezula 1969: 341) zieht er einen Vergleich mit L'Humanité, bei der nur hin und wieder eine Anzeige erscheint,
  4. bei den einzelnen Rubriken fehlt die Angabe der Seiten, was schon allein deshalb zu einem falschen Bild führt, weil z. B. der Sportteil bei Le Monde meist nicht einmal eine Seite umfasst, während er bei L’Humanité mehrere Seiten beansprucht,
  5. eine Untersuchung, die nur das Passé simple zum Gegenstand hat, sagt nicht wirklich etwas über die Häufigkeit dieser Form aus, dazu bedarf es eines Vergleichs mit anderen Tempusformen.

Diese Untersuchung wurde von anderen Wissenschaftlern als eine statistische Untersuchung eingeordnet und als aussagekräftig bezüglich des Passé simple Gebrauchs zitiert (cf. Pfister 1974: 400).

2.2.4 Probleme der traditionellen Forschung

  • Untersuchungen zum Sprachgebrauch wurden generell kaum durchgeführt,
  • Sprachen wie das Französische, Spanische und Italienische wurden entweder anhand von einzelnen Beispielen oder anhand von Beispielsammlungen beschrieben,
  • die Beispiele waren aus dem Kontext gerissen,
  • die Durchführung systematischer Untersuchungen zum Sprachgebrauch war überaus mühsam,
  • das untersuchte Sprachmaterial wurde nicht genau beschrieben,
  • das Wie der Erhebung der Beispiele wurde nicht beschrieben,
  • ein Vergleich von Untersuchungen war unmöglich,
  • die Ergebnisse waren nicht überprüfbar,
  • die Untersuchungen waren nicht wiederholbar,
  • Fragen, die sich erst im Laufe der Untersuchung stellten, konnten nicht berücksichtigt werden, wollte bzw. konnte man nicht weitere manuelle Auszählungen und Berechnungen in Kauf nehmen,
  • das Sprachmaterial und die dort vorgenommenen Annotierungen (Farben, Kürzel) konnte anderen für weitere Untersuchungen nicht zur Verfügung gestellt werden.

2.2.5 Zitierte Untersuchungen / Abhandlungen

Alarcos Llorach, E. (1947): "Perfecto simple y compuesto en español", in: Revista de Filología Española 31: 108-139.

Barrera-Vidal, A. (1972): Parfait simple et parfait composé en castillan moderne. München.

Imbs, Paul (1960): L'emploi des temps verbaux en français moderne. Essai de grammaire descriptive. Paris.

Martin, Robert (1960): Le système des temps dans la langue moderne des journaux. Mémoire, Université de Strasbourg, Centre de Philologie romane.

Pfister, M. (1974): "L'imparfait, le passé simple et le passé composé en français moderne", in: Revue de Linguistique Romane 38: 400-417.

Wandruszka, Mario (1966): "Les temps du passé en français et dans quelques langues voisines", in: Le Français moderne 34: 3-18.

Zezula, Jaroslav (1969): "Le passé simple dans la langue de la presse française d'aujourd'hui", in: Beiträge zur Romanischen Philologie 8: 336-345.

2.3 Ausblick

Aufgrund der Entwicklung im Bereich der Hard-und Software hat sich

  • die für die Datenerhebung benötigte Zeit enorm verkürzt
  • die Menge der Daten, die heute verarbeitet werden kann, enorm vergrößert

Lemnitzer und Zinsmeister Einführung in die Korpuslinguistik:

Bei der Recherche für dieses Thema waren wir überrascht, wie viele korpuslinguistische Untersuchungen mit einem weiten thematischen Spektrum mittlerweile veröffentlicht wurden. (Lemnitzer / Zinsmeister 2006: 3).

Coris-Korpus (Corpus Italiano Scritto) zeigt:

  • Beispiele brauchen nicht erfunden zu werden
  • Belegstellen zu sprachlichen Phänomenen lassen sich zusammen mit dem Kontext erheben
  • die Durchführung systematischer Untersuchungen zum Sprachgebrauch ist nicht mehr so mühsam
  • zu untersuchendes Sprachmaterial steht (hoffentlich) schon genau beschrieben zur Verfügung
  • eigens für eine Untersuchung zusammengestellte Unterkorpora lassen sich genau beschreiben
  • Wie der Erhebung der Beispiele kann genau beschrieben werden
  • Vergleiche von auf der gleichen Grundlage durchgeführten Untersuchungen sind möglich
  • die Ergebnisse sind überprüfbar, besonders wenn es sich um allgemein verfügbare Korpora handelt
  • die Untersuchungen können wiederholt werden
  • Fragen, die sich erst im Laufe der Untersuchung stellen, können berücksichtigt werden
  • das Sprachmaterial, das ihm beigegebene Markup und die dort vorgenommenen Annotierungen können anderen für weitere Untersuchungen zur Verfügung gestellt werden.

Mitte der 70er Jahre war es aber noch nicht soweit:

  • Computertechnologie war noch kaum entwickelt
  • Computer konnten große Mengen von Daten noch kaum oder nur sehr langsam verarbeiten
  • noch Ende der 70er Jahre war der Zugang zu IBM Mainframes bzw. Rechenzentren nur wenigen möglich
  • die Generative Linguistik blühte
  • Chomsky's Kritik am amerikanischen Deskriptionismus der 20er Jahre war maßgeblich dafür verantwortlich, dass die Linguistik sich auf längere Sicht in zwei Lager gespalten hat:

Der rationalistische Ansatz betreibt die linguistische Theoriebildung weitgehend unabhängig vom praktischen Material, der empirische Ansatz verläßt sich auf die Auswertung von Korpora. (Stein 1998: 177)


Lemnitzer und Zinsmeister sprechen von zwei Forschertypen, die Denker und die Beobachter.

Entwicklung der Personalcomputer in den 80er Jahren

  • Korpuslinguistik wurde möglich
  • für Einzelne wurde es möglich, einen Computer zu haben
  • konnten an ihrem Arbeitsplatz oder sogar zu Hause arbeiten
  • Lochkarten waren überflüssig geworden
  • Computer konnte für Sprachuntersuchungen einbgesetzt werden, nicht nur für das Erstellen von Listen oder Berechnungen

In the last five years, this approach [corpus linguistics] has become increasingly popular among linguists, and developments in computing technology and software and in storage mechanisms like CD are making it possible even for the individual PC user. (Renouf 1993a: 131).

 
© 2006-2010 elisabeth.burr@uni-leipzig.de 14.11.2018 0:14