Programm
10:00 - 11:00 Dr. Alexander Koplenig: Permutationstests als parameterfreie Alternative zu klassischen Signifikanztests in der Korpuslinguistik
Im Zentrum meines Vortrags steht die Frage, mit welchen statistischen Mitteln sich die Bedeutsamkeit von Frequenzunterschieden in Korpora bewerten lässt. Dazu gliedert sich der Vortrag in drei Teile. Zunächst möchte ich im ersten Teil zeigen, dass klassische Signifikanztests in der Korpuslinguistik nicht verwendet werden können, da die solchen Tests zugrunde liegenden methodologischen Annahmen aus prinzipiellen Gründen für Sprachdaten nicht erfüllt sind (Berk & Freedman 2003; Koplenig 2017). Im zweiten Teil stelle ich den sogenannten Permutationstest (Freedman & Lane 1983) vor, welcher dank der Verfügbarkeit von kostengünstigen und leistungsstarken Computern inzwischen eine echte Alternative zu bisherigen Verfahren darstellt und gerade im Hinblick auf die Besonderheiten von Sprachdaten (Lijffijt et al. 2014) interessant für die Korpuslinguistik erscheint. Im letzten Teil meines Vortrags präsentiere ich ein entsprechendes Anwendungsbeispiel.
Berk, Richard A. & David A. Freedman. 2003. Statistical assumptions as empirical commitments. In Sheldon L. Messinger, Thomas G. Blomberg & Stanley Cohen (eds.), Law, Punishment, and Social Control: Essays in Honor of Sheldon Messinger,. 2nd ed. New York: Aldine de Gruyter. http://www.stat.berkeley.edu/~census/berk2.pdf (15 June, 2015).
Freedman, David & David Lane. 1983. A Nonstochastic Interpretation of Reported Significance Levels. Journal of Business & Economic Statistics 1(4). 292–298. doi:10.1080/07350015.1983.10509354.
Koplenig, Alexander. 2017. Against statistical significance testing in corpus linguistics. Corpus Linguistics and Linguistic Theory 0(0). doi:10.1515/cllt-2016-0036. https://www.degruyter.com/view/j/cllt.ahead-of-print/cllt-2016-0036/cllt-2016-0036.xml?format=INT (8 January, 2018).
Lijffijt, Jefrey, Tertti Nevalainen, Tanja Säily, Panagiotis Papapetrou, Kai Puolamaki & Heikki Mannila. 2014. Significance testing of word frequencies in corpora. Digital Scholarship in the Humanities. doi:10.1093/llc/fqu064. http://dsh.oxfordjournals.org/cgi/doi/10.1093/llc/fqu064 (22 April, 2015).
MUSS LEIDER ENTFALLEN: Phillip Alday: Das Schöne am Falschliegen
Als die moderne, inzwischen 'klassische' Statistik am Anfang des 20. Jahrhunderts gegründet wurde, waren die Rechner Menschen, die Stichprobengrößen waren mit Fingern abzählbar, und die Hauptanwendung war die Optimierung von Bauernhöfen in Australien und Brauereien in Irland. Die Daten und die Methoden haben oft kaum gereicht, das Signal vom Rauschen zu trennen. Heute haben wir immer noch Probleme, das Signal vom Rauschen zu trennen, wenn wir schwierige Untersuchungsgebiete wie Sprache und menschliches Verhalten betreten. Hinzu kommt ein neues Porblem, nämlich interessante Signale von uninterssanten zu trennen, welcher Herausforderung wir vor allem im Umgang mit 'Big Data' gegenüberstehen. Wir können beide Probleme lösen, indem wir es wagen, falschzuliegen. Wissenschaft heißt Wissen schaffen, also Vorhersagen zu machen, aber auch Vohersagen zu widerlegen. Letzeres setzt interessante, falsifizierbare Hypothesen voraus, deren Genauigkeit nicht aus fehlender Unsicherheit sondern aus einem Verständis von Unsicherheit und einer brutalen Ehrlichkeit darüber entsteht. Mit anderen Worten: um unser Wissen zu erweitern, müssen wir aufhören, Sicherheit vorzuspielen, und anfangen, unser Unwissen sowohl vor als auch nach der Datenerhebung zuzugeben. Die Aufgabe der Statistik wird somit nicht, binäre Signifikanzentscheidungen zu treffen, sondern unsere Fähigkeit mit Unsicherheit umzugehen zu untermauern. Falschliegen bringt uns viel weiter als ein kleiner p-Wert.
11:30 - 12:30 JProf. Dr. Melitta Gilmann: Interpunktionswandel im Frühen Neuhochdeutschen. Erste Ergebnisse einer Korpusstudie zum Gebrauch syntaktischer Interpunktionszeichen in historischen Schreibregistern
Der Vortrag nimmt die sprachhistorische Periode des Deutschen zwischen 1650 und 1800, die zentral für die Reorganisation und die Herausbildung unseres gegenwärtigen Interpunktionssystems ist, korpuslinguistisch in den Blick. Die präsentierte Korpusuntersuchung widmet sich dem Gebrauch der (aus heutiger Sicht) syntaktischen Interpunktionszeichen <, ; /> in einem Korpus aus gedruckten Texten.[1]
Dabei wird deutlich, dass die wesentliche Phase der Reorganisation zu Beginn des 18. Jhdt. stattfindet (s. auch Masalon 2014). In einem Zeitraum von weniger als 100 Jahren wird die Virgel fast vollständig durch das Komma ersetzt, das sich zunächst auf in der Antiqua-Schrift verfasste, lateinische bzw. romanische Textpassagen beschränkt. Einzelne Interpunktionszeichen werden zunehmend mit bestimmten syntaktischen Funktionen assoziiert. Der Vortrag zeigt, dass die Entwicklung der Interpunktionszeichen stark textsortenabhängig verläuft, was auf die Existenz unterschiedlicher „Schreibregister“ (Busch 2018) hindeutet. Während narrative Prosatexte bereits zu Beginn des 18. Jhdts. mit Blick auf die Verwendung von Punkt, Komma und Semikolon unserem heutigen Gebrauch stark ähneln, verhalten sich Rechtstexte konservativer, indem sie länger zur Virgel tendieren und insgesamt längere (und stärker hypotaktische) Sätze produzieren.
Der Vortrag präsentiert erste Ergebnisse der aktuell im Vollzug befindlichen Korpusstudie. Im Vordergrund steht die Diskussion statistischer Verfahren zur Datenanalyse.
Zitierte Literatur
Bredel, Ursula (2005): Interpunktionskonzeptionen des Deutschen – dargestellt an der Kodifizierung des Punktes / On the history of the conception of punctuation in German - a description exemplified by the codification of the full stop. In: ZGL 33/2. 179-211.
Busch, Florian (2018): Digitale Schreibregister von Jugendlichen analysieren. Ein linguistisch-ethnographischer Zugang zu Praktiken des Alltagsschreibens. In: Ziegler, Arne (Hg.). Jugendsprachen. Aktuelle Perspektiven internationaler Forschung. Berlin, Boston: de Gruyter. 829-858.
Kirchhoff, Frank (2017): Von der Virgel zum Komma. Die Entwicklung der Interpunktion im Deutschen. Heidelberg: Winter.
Masalon, Kevin Christopher (2014): Die deutsche Zeichensetzung gestern, heute – und morgen (?). Eine korpusbasierte, diachrone Untersuchung der Interpunktion als Teil schriftsprachlichen Wandels im Spannungsfeld von Textpragmatik, System und Norm unter besonderer Berücksichtigung des Kommas. Dissertation: Universität Duisburg-Essen.
Rinas, Karsten (2017) Theorie der Punkte und Striche. Die Geschichte der deutschen Interpunktionslehre. Heidelberg: Winter.
[1] GerManC: http://ota.ox.ac.uk/desc/2544
13:30 - 14:30 Melanie Andresen: Linguist/innen verwenden mehr Zahlen (vor allem die Vier) – Ein datengeleiteter Korpusvergleich
In diesem Vortrag gehe ich der Frage nach, wie sich die Wissenschaftssprachen von Linguistik und Literaturwissenschaft unterscheiden. Der Fokus liegt auf der Methode: Wie kann diese Fragestellung datengeleitet – also ohne spezifische Hypothesen – bearbeitet werden? Mit Wilcoxon-Rangsummentest, Principal Component Analyse und dem Zeta-Maß zeige ich drei hierfür anwendbare Methoden und diskutiere ihre konzeptionellen Unterschiede und Ergebnisse.