UnivIS
Informationssystem der Friedrich-Alexander-Universität Erlangen-Nürnberg © Config eG 
FAU Logo
  Sammlung/Stundenplan    Modulbelegung Home  |  Rechtliches  |  Kontakt  |  Hilfe    
Suche:      Semester:   
 
 Darstellung
 
Druckansicht

 
 
 Außerdem im UnivIS
 
Vorlesungs- und Modulverzeichnis nach Studiengängen

Vorlesungsverzeichnis

 
 
Veranstaltungskalender

Stellenangebote

Möbel-/Rechnerbörse

 
 
Digital Humanities (Master of Arts) >>

  Wörter, Texte & Frequenzen: statistische Analyse von Sprachdaten (StatAnalyse)

Dozentinnen/Dozenten
Andreas Blombach, M.A., Philipp Heinrich, M.Sc.

Angaben
Seminar
2 SWS, ECTS-Studium, ECTS-Credits: 5
geeignet als Schlüsselqualifikation, Sprache Deutsch
Zeit und Ort: Di 10:00 - 12:00, 02.313; Bemerkung zu Zeit und Ort: Angebotene Präsenztermine am 3.11, 10.11., 15.12., 09.02.

Voraussetzungen / Organisatorisches
Grundlegende Statistik- und Programmierkenntnisse werden vorausgesetzt, Erfahrung mit R ist nicht nötig.
Technische Voraussetzungen: eigener Rechner, Mikrofon, Lautsprecher oder Headset, idealerweise Webcam

Das Seminar findet größtenteils online statt (Screencasts, Zoom & asynchrone Kommunikation).
Es werden aber auch vereinzelte Präsenztermine angeboten, gerade zum Kennenlernen von R und RStudio am Anfang des Semesters.

Inhalt
Seien es nun stilometrische Analysen, die Auswertung von Korpusrecherchen oder die Analyse von Social-Media-Beiträgen unter sozialwissenschaftlichen Gesichtspunkten: Auch wenn man eigentlich mit Text arbeitet, kommt man um Statistik oft nicht herum.
Sprachdaten bringen besondere statistische Herausforderungen mit sich, die in Einführungskursen in der Regel nur angeschnitten werden. Wir wollen uns im Seminar aber nicht nur damit beschäftigen, sondern auch ganz grundlegend mit statistischer Modellierung: Wie wählt man das passende statistische Verfahren aus? Wie wählt man die Prädiktorvariablen aus, die ins Modell eingehen sollen? Wie misst man die Güte eines Modells, und wie interpretiert man das Modell richtig? Wie lassen sich Modelle robust konstruieren, sodass sie verlässlichere Vorhersagen liefern? Wie geht man mit Interaktionen, Nichtlinearität und abhängigen Daten um? Wie wählt man unter mehreren möglichen Modellen das beste aus? Dabei spielt natürlich stets auch die Visualisierung der Daten eine wichtige Rolle. Eigene Daten und Fragestellungen können gerne eingebracht werden!
Grober und unvollständiger Themenüberblick:
  • Einführung in R / Auffrischung

  • Häufigkeitsverteilungen von Sprachdaten

  • Visual data exploration: ggplot, Plotly & Shiny

  • Statistische Modelle: Genauigkeit und Interpretierbarkeit, Test- und Trainingsdaten, Kreuzvalidierung

  • Klassifikationsprobleme (logistische Regression, SVMs, Entscheidungsbäume und Random Forests)

  • Modellieren für Fortgeschrittene (u.a. Umgang mit Nichtlinearität und mit abhängigen Daten)

  • Unüberwachtes Lernen: Clustering, Dimensionsreduzierung und Co.

Empfohlene Literatur
Wickham, Hadley / Grolemund, Garrett (2017): R for Data Science. [Online: https://r4ds.had.co.nz/index.html ]
Ismay, Chester / Kim, Albert Y. (2020): Statistical Inference via Data Science. A ModernDive into R and the Tidyverse. [Online: https://moderndive.com/index.html ]
James, Gareth / Witten, Daniela / Hastie, Trevor / Tibshirani, Robert (2013): An Introduction to Statistical Learning. [Online: http://faculty.marshall.usc.edu/gareth-james/ISL/ ]

ECTS-Informationen:
Credits: 5

Zusätzliche Informationen
Schlagwörter: Statistik, Korpuslinguistik, Visualisierung, Datenanalyse, Regression, Modellierung
Maximale Teilnehmerzahl: 15
Für diese Lehrveranstaltung ist eine Anmeldung erforderlich.
Die Anmeldung erfolgt von Donnerstag, 1.10.2020, 10:00 Uhr bis Sonntag, 15.11.2020, 10:00 Uhr über: StudOn.

Verwendung in folgenden UnivIS-Modulen
Startsemester WS 2020/2021:
Wahlpflichtbereich (Freibereich)
Wahlpflichtbereich (FPO 2018) (Wahl2018)

Institution: Interdisziplinäres Zentrum Digitale Geistes- und Sozialwissenschaften
UnivIS ist ein Produkt der Config eG, Buckenhof