Korpus - Definitionen

Name:	Francis, W. Nelson
Jahr	(1979)
Titel	"Problems of Assembling and Computerizing Large Corpora"
HerausgeberIn(nen)	Bergenholtz, Henning / Schaeder, Burkhard
Sammelband / Portal	Empirische Textwissenschaft. Aufbau und Auswertung von Text-Korpora
Reihe	(= Monographien Linguistik und Kommunikationswissenschaft 39)
Ort	Königstein / Ts.
Verlag	Scriptor
Seiten	110-123
Seite(n) - Textstelle	110

a collection of texts assumed to be representative of a given language, dialect, or other subset of a language, to be used for linguistic analysis

Name:	Habert, Benoît / Nazarenko, Adeline / Salem, André
Jahr	(1997)
Titel	Les linguistiques de corpus
Ort	Paris
Verlag	Arman Colin / Masson
Seite(n) - Textstelle	144

Un corpus est une collection de données langagières qui sont sélectionnées selon des critères linguistiques explicites pour servir d’échantillon du langage

Name:	Rossini Favretti, Rema
Jahr	(2001)
Titel	"La linguistica dei corpora in Europa: prospettive e analisi"
Zeitschrift	Lingua e Stile
Jahrband, Heft	XXXVI, 2
Seiten	367-381
Seite(n) - Textstelle	368

una raccolta, in formato elettronico, di testi autentici e ricorrenti nell’uso, realizzata sulla base di criteri espliciti al fine di costituire una campionatura equilibrata e rappresentativa di uno stato o di una varietà di una lingua

Name:	Steinmann, Cornelia
Jahr	(15.12.04)
Titel	"Korpuslinguistik"
Sammelband / Portal	Die gelbe Seite
Ort	o. O.
Verlag
Seite(n) - Textstelle	Korpora

Ein Korpus ist eine Sammlung von sprachlichen Daten. Meistens handelt es sich um geschriebene Sprache, also um Texte in den verschiedensten Formen wie zum Beispiel auch transkribierte Gespräche. Es existieren aber auch Korpora aus Audio- oder Videodateien.
Verschiedene Korpora unterscheiden sich vor allem durch die Aufbereitung und Zusammensetzung der Daten voneinander.

Name:	Scherer, Carmen
Jahr	(2006)
Titel	Korpuslinguistik
Ort	Heidelberg
Verlag	Winter
Seite(n) - Textstelle	3

Ein Korpus ist eine Sammlung von Texten oder Textteilen, die bewusst nach bestimmten sprachwissenschaftlichen Kriterien ausgewählt und geordnet werden. Unter Text sind in diesem Zusammenhang nicht nur Produkte der Schriftsprache wie Zeitungsartikel, Romane, Kochbücher, E-Mails, Briefe oder Tagebücher zu verstehen, sondern auch mündliche Äußerungen, sei es in Form von Vorträgen, Radiosendungen, Telefongesprächen oder dem zwanglosen Gespräch am Mittagstisch. Die Texte, die in einem Korpus enthalten sind, werden als Primärdaten bezeichnet.

Name:	Lemnitzer, Lothar / Zinsmeister, Heike
Jahr	(2006)
Titel	Korpuslinguistik. Eine Einführung
Reihe	(= Narr Studienbücher).
Ort	Tübingen
Verlag	Gunter Narr
Seite(n) - Textstelle	40

Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen in einer oder mehreren Sprachen. Die Daten des Korpus sind digitalisiert, d. h. auf Rechnern gespeichert und maschinenlesbar. Die Bestandteile des Korpus, die Texte oder Äußerungsfolgen, bestehen aus den Daten selbst sowie möglicherweise aus Metadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diesen Daten zugeordnet sind.

Wenn wir von linguistischen Korpora sprechen, dann handelt es sich um Textsammlungen mit kompletten Texten oder zumindest mit sehr großen Textausschnitten. Außerdem sollten linguistische Korpora meist

repräsentativ
durch Metadaten erschlossen und
linguistisch annotiert sein

Name:	Paprotté, Wolf
Jahr	(o. J.)
Titel	"Korpuslinguistik"
Sammelband / Portal	BabelOn
Ort	Bielefeld
Verlag	Universität Bielefeld
Seite(n) - Textstelle	Was sind Korpora?

Korpora sind umfangreiche Sammlungen gesprochener und geschriebener Texte, die:

mit Blick auf spezifische Erkenntnisinteressen oder Anwendungsszenarien zusammengestellt wurden, um möglichst alle charakteristischen Eigenschaften des betreffenden Sprachausschnittes abzubilden,
in einer Größenordnung von meist mehreren Millionen Textwörtern vorliegen,
normalerweise elektronisch verfügbar und maschinenlesbar sind,
in der Regel nur sinnvoll unter Einsatz von Computern, typischerweise mittels statistischer Verfahren, untersucht und analysiert werden können.

Name:	McEnery, Toni / Xiao, Richard / Tono, Yukio
Jahr	(2006)
Titel	Corpus-Based Language Studies. An Advanced Resource Book
Reihe	(= Routledge Applied Linguistics).
Ort	London / New York
Verlag	Routledge
Seite(n) - Textstelle	5

There are many ways to define a corpus (...), but there is an increasing consensus that a corpus is a collection of (1) machine-readable (2) authentic texts (including transcripts of spoken data) which is (3) sampled to be (4) representative of a particular language or language variety.

keine Korpora: die in Koch / Oesterreicher (1990: bes. 30-49) bzw. Pusch (2002) beschriebenen

Beispiel

CLIPS - Portal

CLIPS Kurzbeschreibung (Italienisch / Englisch)

29.04.2007 16:35 elisabeth.burr@uni-leipzig.de