Multimodale Korpora sind linguistische Text- oder Diskurssammlungen geschriebener oder gesprochener Sprache, die empirische Daten verschiedener „sensory modalit[ies]“ (Allwood, 2008, S. 208) enthalten. Auch aufgrund der (korpus-)technischen Entwicklungen der letzten zwei Jahrzehnte nehmen multimodale Korpora eine zunehmend wichtige Rolle in der Korpuslinguistik ein und werden für Forschende immer leichter zugänglich.
MIKO (Mitschreiben in Vorlesungen: Ein multimodales Lehr-Lernkorpus) ist ein multimodales, wissenschaftssprachliches Vorlesungskorpus und beinhaltet sowohl gesprochene (Vorlesungen mit Audio- und Videoaufnahmen) als auch geschriebene Sprache (studentische Mitschriften). Weitere mulitmodale Korpora gesprochener Wissenschaftssprache sind zum Beispiel euroWiss und GeWiss.
MIKO entstand zum Zweck der Untersuchung des Mitschreibens in Vorlesungen in der Studieneingangsphase im BMBF-geförderten Forschungsprojekt „Sprache und Studienerfolg bei Bildungsausländer/-innen“ und ist mit verschiedenen Erhebungsinstrumenten dieses Projekts verknüpft. Das Mitschreiben in Vorlesungen gilt als äußerst komplex, da simultan sowohl rezeptive als auch produktive Fertigkeiten beansprucht werden (Arras & Fohr, 2020; Wisniewski, 2019; Steets, 2003). Insbesondere Studierende mit Deutsch als L2 empfinden das Mitschreiben zu Studienbeginn als extrem schwierig (Bärenfänger et al., 2015; Marks, 2015). Mitschriften sind zudem herausfordernde Untersuchungsobjekte für empirische und konzeptionelle (linguistische) Untersuchungen (Wisniewski, 2019), da sie nie für sich alleine stehen, sondern sich immer eng auf visuellen und auditiven Input beziehen. Aus diesem Grund ist der Zugang zu einem multimodalen Korpus für ihre weitere Erforschung vielversprechend (Wisniewski, Spiegel, Parker et al., in Vorbereitung).
Korpusdaten
MIKO enthält korpuslinguistisch aufbereitete Vorlesungssitzungen (n=8, 10:00 Stunden, 82075 Token) aus prüfungsrelevanten Pflichtvorlesungen der Fächer Medizin (Funktionelle Anatomie I, Physik für Mediziner), Deutsch als Fremdsprache (Grundzüge der Lexikologie der deutschen Gegenwartssprache) und Wirtschaftswissenschaften (Bürgerliches Recht für Wirtschaftswissenschaftler), die alle für das erste Fachsemester vorgesehen sind und im Wintersemester 2017/18 an der Universität Leipzig mit Audio und Video aufgezeichnet wurden. Die Vorlesungstranskripte liegen jeweils mit und ohne Tokenisierung und automatischen Annotationen vor.
Weitere gefilmte, jedoch nicht korpuslinguistisch aufbereitete Vorlesungssitzungen (n=4, je zwei Vorlesungen aus Deutsch als Fremdsprache und Wirtschaftswissenschaften, 5:38 Stunden) stehen ebenfalls zur Verfügung.
In den insgesamt zwölf Vorlesungssitzungen erhobene, anonymisierte Mitschriften (n=146) von Studierenden mit Deutsch als L1 und L2 werden in archivierter Form, jedoch nicht maschinenlesbar aufbereitet, zur Verfügung gestellt. Mitschreiben ist eine stark kontextualisierte Handlung, die von zahlreichen internen (z. B. Motivation, Vorwissen, Sprachkompetenz) und externen Faktoren (z. B. sprachliche oder fachliche Schwierigkeit der Vorlesungssprache) beeinflusst wird. Sie bedarf also strategischen, sprachlichen und fachlichen Wissens und ist zudem abhängig von individuellen, einzelsituationsabhängigen Motivationen und Absichten (mehr Hintergründe in Wisniewski, 2019).
Metadaten
Es liegen umfangreiche Metadaten zu den Sprechereignissen und den studentischen Mitschriften vor.
Folgende Metadaten zu den Sprechereignissen sind verfügbar:
- Erstellungsprojekt (SpraStu),
- Korpus (Administratives, Korpusdesign),
- Sprechereignisse (Vorlesungssitzungen, verwendete Medien, Themenliste, zugehörige Audio- und Videodateien, Auditorium),
- Transkripte (Token, Types, Annotationen, Transkribent/-in, Reviewer/-in) und
- Sprecher/-innen (Dozierende/-r, Assistent).
Die Mitschriftenmetadaten beinhalten Variablen aus verschiedenen Quellen: Sprechereignismetadaten, Fragebögen, die die Studierenden zu den jeweiligen Vorlesungssitzungen ausgefüllt haben, Mitschriftenerfassungen und -bewertungen sowie ein Fragebogen zu Vorbedingungen des Studiums. Im Forschungsprojekt SpraStu wurden im Rahmen des weitgefächerten Studiendesigns darüber hinaus umfangreiche Sprachkompetenzerhebungen der Proband/-innen durchgeführt. Die Ergebnisse dieser Sprachtests zum Zeitpunkt der Vorlesungs- und Mitschriftenerhebung (Oktober bis Dezember 2017) stehen ebenfalls in den Metadaten zur Verfügung.
Folgende Metadaten zu den Mitschriften liegen vor:
- Vorlesungssitzung (Sprechereignis, empfundene sprachliche und inhaltliche Schwierigkeit, wichtige Themen aus Sicht der Studierenden),
- Mitschriften (Deskriptiva, Bewertungen, Nützlichkeit der Mitschrift, Mitschreibabsichten) und
- Autor/-innen (Studium, Sprachlernbiografie, Sprachtestergebnisse).
Im Downloadbereich stehen gekürzte Versionen der Metadaten frei zur Verfügung, welche die wichtigsten Informationen enthalten. Außerdem können dort sämtliche Metadatenvariablen eingesehen werden. Die vollständigen Metadaten sind im Langzeitarchiv des Leibniz-Instituts für Deutsche Sprache Mannheim verfügbar.
Vorlesungen
In Anlehnung an das euroWiss-Projekt (Heller et al., 2013) wurden von jeder Vorlesung möglichst drei aufeinanderfolgende Vorlesungssitzungen aufgezeichnet. Jede Vorlesung wurde mit zwei Kameras aufgezeichnet, sodass parallel die Projektion bzw. das Tafelbild und die/der Dozierende gefilmt werden konnten. Das Audio wurde mit einem Funkmikrofon aufgezeichnet, das der/dem Dozierenden angeheftet wurde. Die Videos wurden anschließend so geschnitten, dass die Aufnahme der Projektion bzw. des Tafelbildes und die Nahaufnahme der/des Dozierenden nebeneinander zu sehen sind. Somit sind auf den Videos alle nonverbalen Handlungen der/des Dozierenden, einschließlich Zeigegesten auf Projektion und Tafelbild, sichtbar.
Vor der Veröffentlichung im Korpus wurden umfangreiche Nachbearbeitungen der Vorlesungsvideos vorgenommen, um die Persönlichkeitsrechte von Studierenden und dritten, in den Vorlesungen erwähnten Personen zu gewährleisten. Es wurden Weichzeichnungsmasken angewendet und entsprechende Audioabschnitte durch Rauschen ersetzt.
Transkription und Annotation
Bei MIKO wurden die Vorlesungssitzungen nach leicht modifizierten HIAT-Richtlinien (Halbinterpretative Arbeitstranskription, Rehbein et al., 2004) transkribiert. Das etablierte Transkriptionssystem HIAT wurde einerseits um projektspezifische Richtlinien erweitert, andererseits wurden ausgewählte Konventionen verändert. Die Transkriptions- und Annotationsrichtlinien liegen im MIKO-Handbuch vor (Spiegel et al., 2020).
Für die Korpuserstellung wurde das Editor-Tool EXMARaLDA (Schmidt & Wörner, 2014) gewählt, das besonders für die Arbeit mit mündlichen Daten geeignet ist und die Verknüpfung mit Audio- und Videodateien ermöglicht. Die Transkripte und Audio-/Videoaufnahmen sind durch Zeitmarken (Alignment) verknüpft. Eine Übersicht über die Spurstruktur kann heruntergeladen werden.
Der Transkriptions- und Reviewprozess (2018 bis 2020) gliederte sich in mehrere Phasen, die der Qualitätssicherung dienten. Dabei waren stets dieselben zwei Transkribent/-innen beteiligt. Dieser Prozess kann detailliert im Korpushandbuch (Spiegel et al., 2020) nachvollzogen werden.
Morphosyntaktische Annotationen auf Wortebene wurden automatisch hinzugefügt. Dafür wurden die Verbalspuren zunächst automatisch segmentiert und anschließend mithilfe des TreeTaggers (Schmid, 1994), der das Stuttgart-Tübingen-TagSet (STTS) (Schiller et al., 1999) verwendet, automatisch lemmatisiert und mit POS-Tagging annotiert. Die Tokenisierung, Lemmatisierung und das POS-Tagging wurden nicht manuell überprüft. Die Transkripte liegen jeweils in tokenisierter (mit automatischen Annotationen) und untokenisierter Form (ohne automatische Annotationen) vor.
Studentische Mitschriften
Die Mitschriften der SpraStu-Teilnehmenden in den Vorlesungen wurden in unmittelbarem Anschluss an das Vorlesungsende von den Projektmitarbeiter-/innen abfotografiert. Jegliche personenbezogenen Hinweise auf die Studierenden wurden bei der weiteren Verarbeitung anonymisiert.
MIKO enthält insgesamt n=146 Mitschriften (PDF) zu den erhobenen Vorlesungssitzungen. Die Mitschriften können ausschließlich über das Archiv für Gesprochenes Deutsch unter der E-Mail-Adresse agd@ids-mannheim.de unter Angabe des Forschungsvorhabens angefragt werden.
Von den zwölf im Korpus enthaltenen Vorlesungssitzungen liegen Transkripte zu den acht Sitzungen, in denen die meisten Mitschriften erhoben wurden, vor. Die in diesen acht Sitzungen erhobenen n=123 Mitschriften (davon Deutsch als L2: n=78, Deutsch als L1: n=45) wurden einerseits deskriptiv ausgewertet (sogenannte Kenncharakteristika), andererseits wurde ihre Qualität subjektiv eingeschätzt. Für diese Bewertungen wurde ein Beurteilungsraster mit den Kriterien Inhaltliche Vollständigkeit, Korrektheit und Gesamteindruck entwickelt. Die Kenncharakteristika sowie Bewertungen stehen in den Mitschriftenmetadaten zur Verfügung. Ergebnisse der Mitschriftenanalyse sind nachzulesen in Wisniewski, Spiegel, Lenort & Feldmüller (in Vorbereitung).
Datenbank für Gesprochenes Deutsch
MIKO ist in der Datenbank für Gesprochenes Deutsch (DGD) des Leibniz-Instituts für Deutsche Sprache (IDS) in Mannheim verfügbar (https://dgd.ids-mannheim.de) und für registrierte Nutzer in dieser durchsuchbar. Die DGD als Korpusmanagementsystem ist eine browserbasierte Plattform mit umfangreichen Möglichkeiten des Abfragens und Durchsuchens von Transkripten und Metadaten für korpuslinguistische Analysen speziell gesprochener Sprache.
In der DGD werden Vorlesungstranskripte (n=8), Audio- (n=12) und Videoaufnahmen (n=9), das MIKO-Handbuch sowie die Metadaten zu den studentischen Mitschriften zur Verfügung gestellt.
Langzeitarchiv des IDS-Repositoriums
MIKO ist im Langzeitarchiv (LZA) des IDS-Repositoriums verfügbar:
PID: https://hdl.handle.net/10932/00-0534-6426-9660-0101-7
Der Zugang ist kostenfrei über die Authentifizierungs- und Autorisierungsinfrastruktur (AAI) möglich. Interessierte Nutzer/-innen, die keiner Forschungsinstitution angehören, die Teil der AAI ist, können sich unter https://idm.clarin.eu/user/home registrieren und sich so beim LZA für die Nutzung identifizieren. Das IDS ist Teil der CLARIN-Infrastruktur, sodass das Korpus über einige Rahmenmetadaten auch im Virtual Language Observatory auffindbar ist (https://www.clarin.eu/content/virtual-language-observatory-vlo).
Im LZA werden die Vorlesungstranskripte untokenisiert und tokenisiert (je n=8, exb, txt), Audio- (n=12, wav) und Videoaufnahmen (n=9, mp4), das MIKO-Handbuch (PDF/A) sowie die Metadaten zu den Sprechererignissen und den studentischen Mitschriften (csv) zur Verfügung gestellt und können dort heruntergeladen werden.
Archiv für Gesprochenes Deutsch
Die studentischen Mitschriften aus den zwölf Vorlesungssitzungen (n=146, PDF/A) können ausschließlich über das Archiv für Gesprochenes Deutsch unter der E-Mail-Adresse agd@ids-mannheim.de unter Angabe des Forschungsvorhabens angefragt werden.
Die Daten von MIKO sollen im Rahmen des Zitatrechtes wiedergegeben werden. Um auf MIKO als Ganzes zu verweisen, zitieren Sie bitte folgenden Beitrag:
Wisniewski, K., Spiegel, L., Parker, M., Feldmüller, T. & Lenort, L. (in Vorbereitung). Mitschreiben in Vorlesungen in der Studieneingangsphase: Das multimodale Lehr-Lernkorpus MIKO. In K. Wisniewski, W. Lenhard, J. Möhring & L. Spiegel (Hg.), Sprache und Studienerfolg bei Bildungsausländer/-innen. Waxmann.
Für das Zitieren von spezifischen Daten aus dem Korpus geben Sie folgenden PID an: https://hdl.handle.net/10932/00-0534-6426-9660-0101-7.
Wenn Ihre Zitieranforderungen dies verlangen, können Sie Wisniewski, K., Spiegel, L., Parker, M., Feldmüller, T., Lenort, L. als Herausgeber/-innen des Korpus zitieren.
Für das Zitieren eines Transkripts geben Sie die Kennung des Sprechereignisses an, z. B. MIKO_E_00012.
Für das Zitieren konkreter Ausschnitte aus einem Transkript ist zusätzlich die jeweilige Startzeit der Aufnahme, gerundet auf ganze Sekunden, anzugeben, z. B. MIKO_E_00004, 71:15.
Erfolgt der Zugriff auf das Korpus über die DGD, gelten die dort festgelegten Zitierhinweise.
Allwood, J. (2008). Multimodal corpora. In A. Lüdeling & M. Kytö (Hg.), Handbücher zur Sprach- und Kommunikationswissenschaft /HSK]: Bd. 29.1. Corpus linguistics: An international handbook (S. 207–225). De Gruyter.
Arras, U. & Fohr, T. (2020). Mitschreiben: Funktionen und didaktische Überlegungen zu Formen der Wissensverarbeitung an der Hochschule. In A. Gryszko, C. Lammers, K. Pelikan & T. Roelcke (Hg.), DaFFür Berlin – Perspektiven für Deutsch als Fremd- und Zweitsprache in Schule, Beruf und Wissenschaft (S. 131–149). Göttingen University Press.
Bärenfänger, O., Lange, D. & Möhring, J. (2015). Sprache und Bildungserfolg: Sprachliche Anforderungen in der Studieneingangsphase. Research papers in assessment: Bd. 1. Institut für Testforschung und Testentwicklung e.V. http://nbn-resolving.de/urn:nbn:de:bsz:15-qucosa-188820
Heller, D., Hornung, A., Redder, A. & Thielmann, W. (2013). The euroWiss-Project: Linguistic Profiling of European Academic Education (Germany/Italy). European Journal of Applied Linguistics, 1(2), 317–320. https://doi.org/10.1515/eujal-2013-0018
Marks, D. (2015). Prüfen sprachlicher Kompetenzen internationaler Studienanfänger an deutschen Hochschulen – Was leistet der TestDaF? Zeitschrift für Interkulturellen Fremdsprachenunterricht, 20(1), 21–39.
Rehbein, J., Schmidt, T., Meyer, B., Watzke, F. & Herkenrath, A. (2004). Handbuch für das computergestützte Transkribieren nach HIAT: Version 1.0. Arbeiten zur Mehrsprachigkeit Folge B: Bd. 56. Sonderforschungsbereich 538 (Mehrsprachigkeit), Universität Hamburg.
Schiller, A., Teufel, S., Stöckert, C. & Thielen, C. (1999). Guidelines für das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset). Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung; Universität Tübingen, Seminar für Sprachwissenschaft. http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf
Schmid, H. (1994). Probabilistic part-of-speech tagging using Decision Trees. Proceedings of the International Conference on New Methods in Language. https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger1.pdf
Schmidt, T. & Wörner, K. (2014). EXMARaLDA. In J. Durand, U. Gut & G. Kristoffersen (Hg.), The Oxford Handbook of Corpus Phonology (S. 402–419). Oxford University Press.
Spiegel, L., Parker, M., Feldmüller, T., Lenort, L. & Wisniewski, K. (2020). MIKO (Mitschreiben in Vorlesungen: Ein multimodales Lehr-Lernkorpus): Handbuch. https://home.uni-leipzig.de/sprastu/Spiegel_et_al_2020_MIKO-Handbuch.pdf
Steets, A. (2003). Die Mitschrift als universitäre Textart–schwieriger als gedacht, wichtiger als vermutet. In K. Ehlich & A. Steets (Hg.), Wissenschaftlich schreiben–lehren und lernen (S. 51–64). De Gruyter.
Wisniewski, K. (2019). Mitschreiben in Vorlesungen. Ein interdisziplinärer Forschungsüberblick mit Fokus Deutsch als L2. In C. Fandrych & R. Schmidlin (Hg.), Bulletin suisse de linguistique appliquée: Bd. 109. Wissenschaftssprache(n) kontrastiv. (S. 153–170).
Wisniewski, K., Spiegel, L., Lenort, L. & Feldmüller, T. (in Vorbereitung). Herausforderung Wissenschaftssprache I: Mitschreiben. In K. Wisniewski, W. Lenhard, J. Möhring & L. Spiegel (Hg.), Sprache und Studienerfolg bei Bildungsausländer/-innen. Waxmann.
Wisniewski, K., Spiegel, L., Parker, M., Feldmüller, T. & Lenort, L. (in Vorbereitung). Mitschreiben in Vorlesungen in der Studieneingangsphase: Das multimodale Lehr-Lernkorpus MIKO. In K. Wisniewski, W. Lenhard, J. Möhring & L. Spiegel (Hg.), Sprache und Studienerfolg bei Bildungsausländer/-innen. Waxmann.