2 Korpuserstellung

2.1 Datenerhebung

In das Korpus werden Texte aufgenommen, mit denen Studierende in die Schreibberatung der Schreibwerkstatt Mehrsprachigkeit kommen und für die die Studierenden ihr Einverständnis zur Veröffentlichung und Nutzung im Rahmen wissenschaftlicher Forschung und Entwicklung gegeben haben. Die Studierenden werden in einem Gespräch über die Verwendung der Daten und die Form der Anonymisierung aufgeklärt. In diesem Gespräch werden zudem biographische Daten zum Bildungsverlauf, zum Studium sowie zum Sprachgebrauch erfasst (siehe unten).

Die Texte der Studierenden werden von den Schreibberaterinnen und Schreibberatern der Schreibwerkstatt Mehrsprachigkeit schriftlich kommentiert. Diese kommentierten Fassungen bilden die Grundlage für Beratungsgespräche, zu denen von den Schreibberaterinnen und -beratern Protokolle angefertigt werden und die dem Korpus als Metadaten beigefügt sind. Auf der Basis der Beratungsgesprächs und der schriftlich kommentierten Fassung nehmen die Ratsuchenden unter Umständen eine Textüberarbeitung bzw. -weiterführung der Textproduktion vor, die wiederum Eingang in das Korpus findet. Auf diese Weise entsteht eine Schleife: „1. Textfassung – (schriftliches und mündliches) Feedback – Weiterbe-/Überarbeitung – Feedback - 2. Textfassung… – Endprodukt“. Diese Schleife stellt den Idealfall in der Dokumentation einer Textgenese dar. Da es sich um ein natürliches und wachsendes Korpus handelt, ist nicht in allen Fällen ein „Endprodukt“ im Sinne einer Textfassung, die von den Studierenden abgegeben wird, im Korpus enthalten. Dies ist der Tatsache geschuldet, dass die Teilnahme an den Angeboten der Schreibwerkstatt Mehrsprachigkeit freiwillig erfolgt und somit die Ablieferung des Endprodukts nicht eingefordert werden kann.

Das Korpus ist aufgrund seiner Genese nicht gleichförmig aufgebaut. Die Gründe hierfür sind folgende:

Zeit: Der Zeitpunkt im Textproduktionsprozess variiert, zu dem die Schreibberatung von Studierenden aufgesucht wird. Einige kommen in einem frühen Stadium, andere erst später. Allein aufgrund der Zeitdauer bis zur Abgabe variiert die Anzahl der Texte pro Person.
Kommentierungsbedarf: Einige Studierende lassen sich im Prozess der Ideenfindung und Strukturierung begleiten, andere haben konkrete Fragen. Dies führt zu unterschiedlichem Kommentierungsverhalten und Textbearbeitungszyklen.
Freiwilligkeit: Die Studierenden bestimmen selbst, ob und in welchem Umfang sie sich in ihrer Textproduktion begleiten lassen möchten.
Fachspezifik und Phase im Studium: Da die Schreibwerkstatt Mehrsprachigkeit ihre Angebote nicht auf eine bestimmte Studierendengruppe eingeschränkt, sind Texte von Studierenden aus verschiedenen Fachrichtungen und in unterschiedlichen Phasen des Studiums enthalten.
Sprachliche Voraussetzungen: Die sprachlichen Voraussetzungen der Studierenden unterscheiden sich, da sich Texte von monolingual deutschsprachigen Studierenden ebenso im Korpus befinden wie Texte von Studierenden, die erst seit kurzem Deutsch lernen.

Dies führt dazu, dass die Vergleichbarkeit der Texte untereinander in sehr unterschiedlichem Maß gegeben ist. Aussagen über das Korpus als Ganzes sind nur eingeschränkt möglich, da zu viele Variablen die Gestalt der Texte beeinflussen. Andersherum hat diese Art der Korpuserstellung auch methodische Vorteile: Bei denen in das Korpus eingehende Texte handelt es sich ausschließlich um authentische Schreibprodukte, die das Ziel haben, eine Prüfungsleistung im Handlungsraum „Wissenschaft“ zu bestehen. Unserer Ansicht nach ist das Korpus sehr gut als Material für explorative Studien geeignet, die nicht unbedingt auf repräsentative Aussagen abzielen, sondern einen ersten Einblick gewinnen und Hypothesen generieren wollen. Dadurch, dass die Texte mit Metadaten verknüpft sind, haben alle Nutzer/innen des Korpus Einblick in die vielfältigen Entstehungsbedingungen der Texte und können ihre Eignung für eine gegebene Fragestellung einschätzen. Darüber hinaus bietet das Korpus einen Einblick in die Kommentierungspraxis von Peer-Tutorinnen und -Tutoren.

2.2 Datenaufbereitung

Wie oben beschrieben stammen die Texte aus dem Beratungsalltag der Schreibwerkstatt Mehrsprachigkeit, wo sie natürlich mit konkreten Personen in Verbindung gebracht werden müssen. Um eine Veröffentlichung der Daten möglich zu machen, war eine vollständige Anonymisierung aller Texte und Metadaten notwendig. Hierzu wurden zunächst die Namen aller Ratsuchenden durch einen sechsstelligen Nummerncode ersetzt, anstelle der Namen der Schreibberater/innen wurden Kürzel eingeführt, die die Person als Schreibberater/in erkennbar machen (SB01, SB02…). Letzteres bezog sich auch auf die Dateinamen, die bis zum jetzigen Zeitpunkt die Initialen der Schreibberater/innen enthalten hatten, um die Texte im Alltag leicht zuordnen zu können.

Alle Metadaten zu den Ratsuchenden und den Beratungsereignissen werden an der Schreibwerkstatt Mehrsprachigkeit in einer FileMaker-Datenbank archiviert. Zum Zwecke der Veröffentlichung war es hier erstens notwendig, eine neue Version zu schaffen, die um zahlreiche persönliche Daten reduziert wurde (z.B. Kontaktdaten). Zweitens sollten die Daten mit der Veröffentlichung für jeden zugänglich und deshalb nicht an eine kostenpflichtige Software gebunden sein. In Absprache mit dem Hamburger Zentrum für Sprachkorpora (HZSK) [Link] haben wir uns für das Programm CoMa [Link] entschieden, das eine praktische Kombination der Metadaten zu den Personen einerseits und den Beratungsereignissen andererseits anbietet. Diese neu entstandene Metadatendatei wird Nutzers des Korpus zusammen mit den Texten zur Verfügung gestellt.

Als aufwendig erwies sich außerdem die Anonymisierung der Texte selbst, die als Word- oder PDF-Dokumente vorliegen. Persönliche Daten finden sich hier insbesondere auf dem Deckblatt, wo neben Informationen zur Person auch solche zur dazugehörigen Lehrveranstaltung entfernt wurden. Namen werden außerdem häufig in den Kommentaren der Schreibberater/innen verwendet, die sich an ganz unterschiedlichen Stellen im Dokument befinden können. Überwiegend wird mit der Word-Kommentarfunktion gearbeitet, gelegentlich werden aber auch Abschlusskommentare am Ende des Dokumentes in den Fließtext eingefügt. Um hier zu vermeiden, dass Namen übersehen werden, wurde ein Python-Skript eingesetzt, dass nach den Namen sucht und Fundstellen ausgibt. Word-Dokumente enthalten außerdem Metadaten zur Autorin/zum Autor des Textes und den Namen möglicher Kommentatoren.