Lernerkorpora sind systematische Sammlungen von Texten oder Diskursen, die von Lernenden einer Sprache produziert wurden (Granger et al. 2015). Mit Lernerkorpora lassen sich linguistische Fragestellungen zum Spracherwerb untersuchen, sie sind aber auch für sprachdiagnostische Untersuchungen und die sprachdidaktische Arbeit nützliche Werkzeuge. Neben dem hier vorgestellten Korpus sind weitere Lernerkorpora zum Beispiel MERLIN, Falko (Lüdeling et al. 2008) oder BeMaTaC (Sauer 2013).
Bei DISKO handelt es sich um ein schriftliches Lernerkorpus, das in mehrere Subkorpora gegliedert ist. Alle Subkorpora enthalten Texte, die in diagnostischen Verfahren zur Feststellung der sogenannten „sprachlichen Studierfähigkeit“ erhoben wurden. Details zu den Subkorpora finden sich im Korpushandbuch (Muntschick et al. 2020).
Subkorpora im Kernbereich von DISKO
Hauptbestandteil von DISKO ist ein Kernbereich mit zwei longitudinalen Subkorpora, die direkt aus dem Design des SpraStu-Projekts hervorgegangen sind (DISKO_L2 und DISKO_L1).
Die L2-Texte aus diesem Bereich (Subkorpus DISKO_L2, n=510) stammen von internationalen Studierenden, die ihre Hochschulzugangsberechtigung entweder im Ausland oder an einem Studienkolleg erreicht haben (Bildungsausländer/-innen) und ein grundständiges BA- oder Staatsexamensstudium (Medizin, Lehramt) an den beiden Projektuniversitäten Leipzig und Würzburg absolvierten. Es liegen bis zu drei L2-Texte pro Person zur je identischen Schreibaufgabe vor, die im Abstand von einem Jahr erhoben wurden. Neben den L2-Texten beinhaltet der Kernbereich auch Texte von Studierenden mit deutscher L1 zu derselben Aufgabenstellung (Subkorpus DISKO_L1, n=85). Zum Zeitpunkt der Erhebung des ersten Texts waren die Studierenden (L1 und L2) je im ersten Fachsemester.
Da diese Studierendengruppen auch Bestandteil umfassender weiterer Erhebungen in SpraStu waren (z.B. wurden sie umfassend zu ihrem sprachlichen und sozio-ökonomischen Hintergrund sowie regelmäßig zur je aktuellen Studiensituation befragt; vgl. SpraStu-Design), liegen im Kernbereich umfassende Informationen zu den Lernenden vor, die in den jeweiligen Metadaten abgebildet sind. Darüber hinaus sind umfassende Informationen zur Proband/-innengruppe von SpraStu in Wisniewski et al. (in Vorbereitung) zu finden.
Die Studierenden dieser beiden Subkorpora (DISKO_L2 und DISKO_L1) nahmen in SpraStu einmal jährlich an einer Reihe von Sprachtests teil, unter anderem dem Teil „schriftliche Produktion“ aus dem TestDaF, einem standardisierten Test zum Nachweis der sogenannten sprachlichen Studierfähigkeit (HRK/KMK 2015, 2004). Diese Texte wurden stets zur selben Aufgabenstellung verfasst und von professionellen Bewertenden des TestDaF-Instituts beurteilt.
Weitere Subkorpora in DISKO
Neben den Kernkorpora DISKO_L2 und DISKO_L1 beinhaltet DISKO zwei weitere Subkorpora. Diese enthalten ebenfalls schriftliche Texte, die im Zusammenhang mit der Diagnostik der sprachlichen Studierfähigkeit internationaler Studierender stehen. Allerdings sind sie weniger direkt mit dem Projektdesign von SpraStu verknüpft.
Hier handelt es sich erstens um das Subkorpus DISKO_DSH, eine sehr kleine Textsammlung. Vor der Aufnahme ihres Studiums hatten die meisten Proband/-innen des SpraStu-Projekts einen Sprachtest absolviert, um ihre sprachliche Studierfähigkeit im Sinne der RO/DT (HRK/KMK 2015, 2004) nachzuweisen. Dazu können in Deutschland verschiedene Testverfahren gewählt werden, u. a. die Deutsche Sprachprüfung für den Hochschulzugang (DSH). Einige der Proband/-innen stellten für DISKO die Texte zur Verfügung, die sie im originalen high-stakes-Kontext des eigenen Hochschulzugangs innerhalb der DSH verfasst hatten. Diese konstituieren DISKO_DSH.
Die Texte des zweiten zusätzlichen Subkorpus DISKO_WebTestDaF wurden vom TestDaF-Institut zur Verfügung gestellt und stehen nicht im Zusammenhang mit den Erhebungen in SpraStu. Die Proband/-innen sind nicht identisch mit denen des SpraStu-Projekts. Es handelt sich um Texte zu zwei Schreibaufgaben aus einer Feldtestung des digitalen TestDaFs (TestDaF-Institut o. J.), der schließlich 2020 eingeführt wurde. Die Proband/-innen der Feldtestung hatten Deutsch als L2, ihr jeweiliges Sprachniveau wurde über einen vorgeschalteten Einstufungstest (onSET, TestDaF-Institut 2018) ermittelt. Für diese Proband/-innen liegt ein eingeschränktes Set an Metadaten vor.
Alle Texte im DISKO-Korpus wurden somit im Kontext sprachdiagnostischer Verfahren erhoben, deren Hauptkonstrukt die sogenannte sprachliche Studierfähigkeit ist.
Größe des Korpus
Das Gesamtkorpus DISKO besteht aus n=1098 Texten, verfasst von n=695 Personen, und enthält insgesamt 397.082 Token. Diese sind in vier Subkorpora wiederzufinden: Den Kernkorpora DISKO_L2 und DISKO_L1 sowie DISKO_DSH und DISKO_WebTestDaF.
Die folgende Übersicht fasst die wichtigsten Eckdaten zu den einzelnen Subkorpora zusammen. Neben Informationen zur jeweiligen Aufgabenstellung, zur Erhebung und den Metadaten sind hier die Anzahl der Autor/-innen und die Anzahl der Texte, die Gesamttokenzahl sowie die durchschnittliche Tokenzahl pro Text (Ø) aufgeführt, wobei bei Letzteren zusätzlich die Standardabweichung (σ) gegeben ist. Die Tabelle schließt mit einer groben Auflistung der vorhandenen Annotationsspuren; eine detaillierte Auflistung dieser Spuren ist in den Downloads zu finden.
2) Bienensterben
2) 33.703
2) 143 (σ=41)
Tabelle 1: Übersicht über die DISKO-Subkorpora
Metadaten
Es liegen umfangreiche Metadaten zum Korpusdesign, den Texten und den Sprachlernbiographien der Autor-/innen vor:
- Erstellungsprojekt (Forschungsprojekt SpraStu, in dem das Korpus entstanden ist)
- Korpus (Administratives, Korpusdesign, Informationen zur Annotation)
- Text (Informationen zur Erhebung, Bewertung und Transkription des Textes)
- Autor/-in (personenbezogene Informationen, z. B. Studium, Sprachbiografie, Sprachtestergebnisse)
Im Downloadbereich stehen gekürzte Versionen der Metadaten frei zur Verfügung, welche die wichtigsten Informationen für jedes Subkorpus enthalten. Außerdem können alle in DISKO verwendeten Metadatenvariablen eingesehen werden. Die vollständigen Metadaten, nach Subkorpus getrennt, können im Langzeitarchiv des Leibniz-Instituts für Deutsche Sprache Mannheim heruntergeladen werden. In ANNIS lassen sich die Metadaten als Filtervariablen nutzen.
Die Aufbereitung der handschriftlichen Texte erforderte eine Reihe an Arbeitsschritten. Diese sind im Korpushandbuch (vgl. Muntschick et al. 2020, Kapitel 2) ausführlich dargestellt.
Die Aufbereitung begann mit der Transkription der Texte auf Grundlage selbst entwickelter und ausführlich pilotierter Richtlinien. Als Transkriptions- und Annotationstool wurde EXMARaLDA (Dulko) (Nolda 2019) verwendet, eine Erweiterung des EXMARaLDA-Partitureditors (Schmidt 2002; Schmidt und Wörner 2014). Handschriftliche Eigenheiten wurden bereits während des Transkribierens manuell annotiert, ebenso wie die Anonymisierung von personenbezogenen Informationen innerhalb der Texte, welche anschließend auch in den handschriftlichen Originaltexten geschwärzt wurden.
Nach der Transkription wurden die Transkripte mit automatischen Annotationen zu Wortarten (POS), Lemmata und Satzspannen versehen und diese teilweise manuell und teilautomatisch korrigiert.
Zusätzlich wurde die Transkription manuelle Annotationen erweitert. Diese beinhalten eine Normalisierung der Transkriptionsspur auf ausgewählte Phänomene sowie eine nach Morphosyntax und Orthographie korrigierte Zielhypothese. Weitere manuelle Annotationen zur Aufgabenstellung zeigen an, welche Aufgabenteile bearbeitet sowie welche Textteile bzw. Strukturen aus der Aufgabenstellung übernommen wurden.
Bei der Aufbereitung kamen verschiedene Verfahren der Qualitätskontrolle (Inter- und Intra-Raterreliabilität) zum Einsatz, welche im Handbuch genauer dargelegt sind.
Welche Annotation in welchem Subkorpus vorhanden sind, ist neben Erläuterungen im Handbuch zusätzlich in der Übersicht der in DISKO vorhandenen Spuren einzusehen.
DISKO in ANNIS
DISKO wurde in der ANNIS-Umgebung der Humboldt-Universität zu Berlin veröffentlicht. Benutzende müssen einen akademischen Account haben, um sich einzuloggen.
ANNIS (Krause und Zeldes 2016) als Such- und Visualisierungswerkzeug ist eine browserbasierte Plattform mit umfangreichen Möglichkeiten des Abfragens und Durchsuchens von Texten und Metadaten für korpuslinguistische Analysen.
Für die Nutzung von DISKO mit ANNIS sei an dieser Stelle auf Kapitel 3.2 des Korpushandbuchs verwiesen, welches einen Schnelleinstieg in das Programm und Beispielsuchanfragen enthält.
DISKO im Langzeitarchiv des IDS-Repositoriums
DISKO wird darüber hinaus über den PID (https://hdl.handle.net/10932/00-0534-6404-3CE0-0001-3) im Langzeitarchiv (LZA) des Leibniz-Instituts für Deutsche Sprache (IDS) verfügbar sein und wird dort in verschiedenen Formaten (exb, txt, pdf, annis) heruntergeladen werden können. Der Zugang ist kostenfrei über die Authentifizierungs- und Autorisierungsinfrastruktur (AAI) möglich. Interessierte Nutzer/-innen, die keiner Forschungsinstitution angehören, die Teil der AAI ist, können sich unter https://idm.clarin.eu/user/home registrieren und sich so beim LZA für die Nutzung identifizieren. Das IDS ist Teil der CLARIN-Infrastruktur, sodass das Korpus über einige Rahmenmetadaten auch im Virtual Language Observatory (https://www.clarin.eu/content/virtual-language-observatory-vlo) auffindbar sein wird.
Die Daten von DISKO können im Rahmen des Zitatrechtes wiedergegeben werden. Um auf DISKO als Ganzes zu verweisen, zitieren Sie bitte folgenden Beitrag:
Wisniewski, K., Muntschick, E., Portmann, A. (in Vorb.). Schreiben in der Studiersprache Deutsch: Das Lernerkorpus DISKO. In Wisniewski, K., Lenhard, W., Möhring, J., Spiegel, L. (Hg.). Sprache und Studienerfolg bei Bildungsausländer/-innen. Münster: Waxmann.
Für die Zitierung von spezifischen Daten aus dem Korpus geben Sie folgenden Link an: https://hdl.handle.net/10932/00-0534-6404-3CE0-0001-3
Wenn Ihre Zitieranforderungen dies verlangen, können Sie Wisniewski, K., Muntschick, E., Portmann, A. als Herausgeberinnen des Korpus angeben. Für das Zitieren von Textausschnitten geben Sie bitte die jeweilige Dokument-ID an (z. B. DISKO_012_L2_T1_TDN3).
Granger, Sylviane; Gilquin, Gaëtanelle; Meunier, Fanny (Hg.) (2015): The Cambridge Handbook of Learner Corpus Research. Cambridge: Cambridge University Press (Cambridge Handbooks in Language and Linguistics).
HRK/KMK (Hg.) (2004): Rahmenordnung über Deutsche Sprachprüfungen für das Studium an deutschen Hochschulen (RO-DT). Beschluss der HRK vom 08.06.2004 und der KMK vom 25.06.2004 i.d.F. der HRK vom 10.11.2015 und der KMK vom 12.11.2015. Online verfügbar unter https://www.kmk.org/fileadmin/Dateien/veroeffentlichungen_beschluesse/2004/2004_06_25_RO_DT.pdf, zuletzt geprüft am 18.12.2020.
HRK/KMK (Hg.) (2015): Rahmenordnung über Deutsche Sprachprüfungen für das Studium an deutschen Hochschulen (RO-DT). Online verfügbar unter https://www.hrk.de/themen/internationales/internationale-studierende/hochschulzugang-fuer-internationale-studierende/sprachnachweis-deutsch/, zuletzt geprüft am 18.12.2020.
Krause, Thomas; Zeldes, Amir (2016): ANNIS3: A new architecture for generic corpus query and visualization. In: Digital Scholarship Humanities 31 (1), S. 118–139. DOI: 10.1093/llc/fqu057.
Lüdeling, Anke; Doolittle, Seanna; Hirschmann, Hagen; Schmidt, Karin; Walter, Maik (2008): Das Lernerkorpus Falko. In: Deutsch als Fremdsprache 45 (2), S. 67–73.
Muntschick, Elisabeth; Portmann, Annette; Schwendemann, Matthias; Wisniewski, Katrin (2020): DISKO (Deutsch im Studium: Lernerkorpus): Handbuch. Online verfügbar unter https://home.uni-leipzig.de/sprastu/Muntschick_et_al_2020_DISKO-Handbuch.pdf, zuletzt geprüft am 18.12.2020.
Nolda, Andreas (2019): EXMARaLDA (Dulko). Version 14.1. Online verfügbar unter https://bitbucket.org/nolda/exmaralda-dulko/src/default/, zuletzt geprüft am 18.12.2020.
Sauer, Simon (Hg.) (2013): BeMaTaC. Ein tief annotiertes multimodales Map-Task-Korpus gesprochener Lerner- und Muttersprache. Online verfügbar unter http://u.hu-berlin.de/bematac, zuletzt geprüft am 18.12.2020.
Schmidt, Thomas (2002): EXMARaLDA – ein System zur Diskurstranskription auf dem Computer: Sonderforschungsbereich 538 (Mehrsprachigkeit), Universität Hamburg (Arbeiten zur Mehrsprachigkeit Folge B, 34).
Schmidt, Thomas; Wörner, Kai (2014): EXMARaLDA. In: Jacques Durand, Ulrike Gut und Gjert Kristoffersen (Hg.): The Oxford Handbook of Corpus Phonology: Oxford University Press, S. 402–419.
Spiegel, L., Parker, M., Feldmüller, T., Lenort, L. & Wisniewski, K. (2020). MIKO (Mitschreiben in Vorlesungen: Ein multimodales Lehr-Lernkorpus): Handbuch. Online verfügbar unter https://home.uni-leipzig.de/sprastu/Spiegel_et_al_2020_MIKO-Handbuch.pdf, zuletzt geprüft am 18.12.2020.
TestDaF-Institut (o. J.): Der Aufbau des digitalen TestDaF. Online verfügbar unter https://www.testdaf.de/de/teilnehmende/der-digitale-testdaf-ueberblick/, zuletzt geprüft am 18.12.2020.
TestDaF-Institut (Hg.) (2018): onSET-Handbuch: Planung und Durchführung von Online-Spracheinstufungstests – onSET-Deutsch, onSET-English. TestDaF-Institut. Bochum: TestDaF-Institut.
Wisniewski, Katrin; Lenhard, Wolfgang; Möhring, Jupp; Spiegel, Leonore (Hg.) (in Vorbereitung): Sprache und Studienerfolg bei Bildungsausländer/-innen. Münster: Waxmann.