Korpus- und Computerlinguistik

Der Lehrstuhl für Korpus- und Computerlinguistik betreibt methodologische Grundlagenforschung zur quantitativen Auswertung großer Textkorpora. Die entwickelten Algorithmen und Softwarewerkzeuge werden für Untersuchungen im Bereich der digitalen Geistes- und Sozialwissenschaftlichen wie auch für sprachtechnologische Anwendungen genutzt. Ein inhaltlicher Schwerpunkt liegt dabei auf Kookkurrenzphänomenen und der korpusbasierten Diskursanalyse.

Der Lehrstuhl hat eine eigene Homepage in englischer Sprache. Besuchen Sie uns!

Leitung

Prof. Dr. Stephanie Evert

Raum: Raum 4.000
Bismarckstraße 6
91054 Erlangen

Wissenschaftliche Mitarbeiter

Andreas Blombach, M.A.

Raum: Raum 4.000
Bismarckstraße 6
91054 Erlangen

Natalie Dykes, M.A.

Raum: Raum 4.000
Bismarckstr. 6
91054 Erlangen

Philipp Heinrich, M.Sc.

Raum: Raum 4.000
Bismarckstr. 6
91054 Erlangen

Dr.-Ing. Besim Kabashi, M.A.

Raum: Raum 4.000
Bismarckstr. 6
91054 Erlangen

  • Tracking the infodemic: Conspiracy theories in the corona crisis

    (Drittmittelfinanzierte Einzelförderung)

    Laufzeit: 1. April 2021 - 30. September 2022
    Mittelgeber: Volkswagen Stiftung

    Welche Kreise ziehen Verschwörungstheorien? Das Projekt untersucht diese Frage, indem wir mit Methoden der Korpuslinguistik den Gebrauch und die Verbreitung von Verschwörungstheorien anhand typischer Sprachmuster analysieren. Außerdem untersuchen wir die diskursiven Strategien, die Verschwörungstheorien mit rechtspopulistischen und extremistischen Diskursen gemeinsam haben. Ziel des Projekts ist es nicht nur, wichtige Einsichten in den Diskurs zur Corona-Pandemie zu gewinnen, sondern auch, die verwendeten Methoden weitgehend zu automatisieren, sodass sie eingesetzt werden können, um die Verbreitung anderer Verschwörungstheorien und Fehlinformationen zu untersuchen, etwa indem bestimmte Argumentationsmuster automatisch identifiziert werden.

  • Argumentrekonstruktion aus Politischen Debatten

    (Drittmittelfinanzierte Einzelförderung)

    Laufzeit: 1. Januar 2021 - 31. Dezember 2023
    Mittelgeber: DFG / Schwerpunktprogramm (SPP)
    URL: https://www.linguistik.phil.fau.de/projects/rant/
    Politische Debatten liegen heutzutage zu großen Teilen in maschinenlesbarer Form vor – in der formellen Öffentlichkeit von Parlamentsdebatten ebenso wie in der Halböffentlichkeit sozialer Medien. Dies eröffnet die Möglichkeit, sich mit automatischen Textanalysemethoden einen breiten Überblick über die vorgebrachten Argumente zu verschaffen. Das Projekt RANT/RAND entwickelt im Rahmen des SPP RATIO (Robust Argumentation Machines) zu diesem Zweck einen kombinierten Ansatz, in den Methoden aus Logik und Korpuslinguistik einfließen. Da aufgrund der riesigen Menge verfügbarer Daten davon ausgegangen werden kann, dass alle wichtigen Argumente auch bei relativ niedriger Sensitivität gefunden werden, setzen unsere Verfahren auf hohe Genauigkeit (auf Kosten der Sensitivität). Dazu erstellen wir eine Liste von Logikmustern, die gängigen Argumentationsschemata entsprechen (z.B. Argumentum ad verecundiam) und im Wesentlichen als mit Platzhaltern versehene Formeln in speziellen Modallogiken betrachtet werden können. Jedes Logikmuster ist mit mehreren sprachlichen Realisierungen verknüpft, die in korpuslinguistischen Studien erarbeitet und gleichzeitig in Form von Suchanfragen operationalisiert werden. Unser Ansatz verbindet somit die Entwicklung automatischer Methoden zur Argumentextraktion mit neuen Erkenntnissen über linguistische Aspekte insbesondere der umgangssprachlichen politischen Argumentation. Die aktuell laufende erste Phase des Projekts konzentriert sich auf die Entwicklung und Evaluation von Logikmustern und korpuslinguistischen Suchanfragen für einzelne Argumente anhand einer Fallstudie auf einem großen englischsprachigen Twitter-Korpus. In der zweiten Projektphase werden wir die Robustheit unseres Ansatzes testen, indem wir weitere extsorten mit einbeziehen und insbesondere auch längere kohärente Texte wie Zeitungsartikel und Parlamentsdebatten analysieren. Zudem arbeiten wir in der zweiten Phase mit deutschsprachigen Texten, die mit korpuslinguistischen Suchanfragen wesentlich schwieriger zu erfassen sind (u.a. aufgrund diskontinuierlicher Konstituenten und eines deutlich kleineren Angebots qualitativ hochwertiger NLP-Werkzeuge). Ein weiterer entscheidender Schritt ist der Einsatz ähnlichkeitsbasierter Methoden, um aus den extrahierten Argumenten komplexe Schlussfolgerungen ziehen zu können. Dazu werden Platzhalter in den extrahierten Formeln mit speziell auf unsere Anforderungen zugeschnittenen Embedding-Vektoren ausgefüllt. Ferner werden wir unseren Ansatz auf die Extraktion von Argumentationsstrukturen, d.h. explizite und implizite Verweise zwischen Argumenten, ausdehnen. Ergänzend dazu werden wir die logische Struktur von Argumentation über Planung untersuchen und Querverbindungen zwischen Argumentation und zwischenmenschlichen Beziehungen herstellen (z.B. in Ad-hominem-Argumenten).
  • Automatische Anonymisierung und Pseudonymisierung von Gerichtsurteilen

    (Drittmittelfinanzierte Einzelförderung)

    Laufzeit: 1. April 2020 - 31. März 2022
    Mittelgeber: Bayerisches Staatsministerium der Justiz (StMJ)
  • Korpus- und Computerlinguistik interkulturell

    (Drittmittelfinanzierte Einzelförderung)

    Laufzeit: 1. März 2020 - 31. August 2021
    Mittelgeber: Bayerische Forschungsallianz (BayFOR)
  • Rekonstruktion von Argumenten aus Noisy Text (SPP 1999: RATIO)

    (Drittmittelfinanzierte Einzelförderung)

    Laufzeit: 1. Januar 2018 - 31. Dezember 2020
    Mittelgeber: Deutsche Forschungsgemeinschaft (DFG)

    Soziale Medien spielen in der gesellschaftlichen Meinungsbildung eine wachsende Rolle. Gegenstand von RANT ist die Entwicklung von Methoden und Formalismen zur Extraktion, Repräsentation und Verarbeitung von Argumenten aus Texten geringer linguistischer Qualität, wie sie eben in Diskussionen auf sozialen Medien anzutreffen sind, anhand einer laufenden Fallstudie an einem großen Korpus von vor dem Referendum verbreiteten Twitter-Botschaften zum Thema Brexit. Wir werden eine korpuslinguistische Studie zur Identifikation wiederkehrender sprachlicher Argumentationsschemata durchführen und anhand dieser Schemata im Sinne eines High-Precision-Low-Recall-Ansatzes entsprechende Korpusanfragen zur Extraktion von Argumenten entwerfen. In der Tat erwarten wir, dass sich Argumentationsschemata unmittelbar mit logischen Schemata in einem dedizierten Formalismus in Verbindung bringen lassen und somit einzelne Argumente direkt als logische Formeln geparst werden können. Der zur Argumentrepräsentation verwendete Formalismus wird ein breites Spektrum an Modalitäten beinhalten, die in realen Texten auftretende sprachlich-semantische Phänomene wie Unsicherheit, Wirkung, Präferenz, Sentiment, Vagheit und Default-Implikation widerspiegeln. Wir werden einen solchen Formalismus als Familie von Instanzlogiken in der koalgebraischen Logik darstellen, die als generisches logisches Rahmenwerk vereinheitlichte semantische, deduktive und algorithmische Methoden für Modalitäten jenseits der üblichen relationalen Semantik zur Verfügung stellt; insbesondere werden wir Deduktionswerkzeuge für Argumentationslogiken auf bestehende generische koalgebraische Werkzeuge aufbauen. Die so entstehende logische Sprache zur Repräsentation einzelner Argumente wird ergänzt durch ein flexibles Rahmenwerk zur Repräsentation von Beziehungen zwischen Argumenten. Hierzu gehören sowohl in der Argumentationstheorie verbreitet betrachtete Relationen wie die Angriffs- und Unterstützungsrelationen sowie aus den Metadaten des Korpus gewonnene Beziehungen wie Zitation, Hashtags oder direkte Ansprache (per Erwähnung von Benutzernamen) als auch solche Beziehungen, die sich erst durch logische Schlussfolgerung aus dem Inhalt der Argumente ergeben. Insbesondere letztere Beziehungen stellen sich semantisch oft nicht als Relationen im engeren Sinne dar, sondern involvieren z.B. kontinuierliche Wahrheitswerte, Präferenzordnungen oder Wahrscheinlichkeiten und profitieren insofern von einer einheitlichen koalgebraischen Modellierung, die auch die semantische Grundlage der koalgebraischen bildet. Wir werden dementsprechend geeignete Verallgemeinerungen der für Dung's Argumentation Frameworks definierten Extensionssemantiken entwickeln und somit letztlich Begriffe wie „kohärenter Standpunkt“ oder „verbreitete Sichtweise“ formal einfangen; in Verbindung mit entsprechenden algorithmischen Methoden wird dies die automatisierte Extraktion umfassender argumentativer Positionen aus dem Korpus erlauben.

  • Komplexität literatischer Werke aus stilometrischer Sicht im Digital Humanities-Zentrum KALLIMACHOS

    (Drittmittelfinanzierte Gruppenförderung – Teilprojekt)

    Titel des Gesamtprojektes: KALLIMACHOS – Zentrum für digitale Edition und quantitative Analyse an der Universität Würzburg
    Laufzeit: 1. Oktober 2017 - 30. September 2019
    Mittelgeber: BMBF / Verbundprojekt

    Im Rahmen dieses Teilprojekts entwickelt der Lehrstuhl für Korpus- und Computerlinguistik robuste Maße für lexikalische Komplexität, erweitert den Komplexitätsbegriff über die gängige vocabulary richness hinaus und implementiert die Ergebnisse in einerfrei verfügbaren stilometrischen Toolbox.

  • Exploring the “Fukushima Effect”: Meinungsnetze und politische Willensbildung in der transnationalen algorithmischen Öffentlichkeit

    (FAU Funds)

    Laufzeit: 1. Januar 2017 - 31. Dezember 2019
    URL: https://www.linguistik.phil.fau.de/projects/efe/

    Die Digitalisierung der Gesellschaft und der Mediensysteme hat immense Auswirkungen auf (politische) Meinungsbildung und Diskurse. Dieses Projekt widmet sich der Untersuchung eines komplexen Phänomens, das im Zeitalter globalisierter Massenmedien und einer nationale Grenzen überschreitenden Konnektivität in den Sozialen Medien entstanden ist und von uns als transnationale algorithmische öffentlichkeit bezeichnet wird. Eine interdisziplinäre Kombination aus computerlinguistischen Verfahren, Netzwerkvisualisierung, interkultureller Hermeneutik und kommunikationswissenschaftlicher Inhaltsanalyse ermöglicht es uns, die diesem Phänomen zugrundeliegenden Prozesse zu analysieren und abzubilden. Thematisch befasst sich das Projekt mit der politisch aktuellen Diskussion zur Atomenergie und Energiewende nach Fukushima in Deutschland und Japan.

  • Effiziente Simulationsexperimente zur Parameteroptimierung speicherintensiver computerlinguistischer Lernverfahren

    (Drittmittelfinanzierte Einzelförderung)

    Laufzeit: 1. Oktober 2016 - 30. September 2017
    Mittelgeber: Bayerisches Staatsministerium für Bildung und Kultus, Wissenschaft und Kunst (ab 10/2013)

    Ziel des Projekts ist es, speicherintensive maschinelle Lernverfahren für den Einsatz auf HPC-Clustern zu optimieren, um Simulationsexperimente zur systematischen Parameteroptimierung der Verfahren durchführen zu können. Als prototypischer Anwendungsfall dienen Matrixfaktorisierungen und Deep Learning-Modelle in der distributionellen Semantik.

  • Reisekostenbeihilfe für Konferenzreise nach Portozoz

    (Drittmittelfinanzierte Einzelförderung)

    Laufzeit: 1. August 2016 - 31. Oktober 2016
    Mittelgeber: Stiftungen
  • Mehrsprachigkeit und Migration

    (Projekt aus Eigenmitteln)

    Laufzeit: seit 1. Januar 2016
  • Englisches Konstruktikon

    (Projekt aus Eigenmitteln)

    Laufzeit: seit 1. Januar 2016
  • Korpuslinguistische Methoden und statistische Auswertungen im Digital Humanities-Zentrum KALLIMACHOS

    (Drittmittelfinanzierte Gruppenförderung – Teilprojekt)

    Titel des Gesamtprojektes: KALLIMACHOS – Zentrum für digitale Edition und quantitative Analyse an der Universität Würzburg
    Laufzeit: 1. Oktober 2014 - 30. September 2017
    Mittelgeber: BMBF / Verbundprojekt
    URL: http://www.kallimachos.de/

    In diesem Teilprojekt soll das Verständnis für die mathematischen Eigenschaften der literarischen Autorschaftsattribution mit stilometrischen Abstandsmaßen verbessert werden. Außerdem ist die Trennung von Autor-, Gattungs- und Epochensignal in stilometrischen Analysen von großem Interesse, da dies wiederum der Zuverlässigkeit einer automatischen Genreklassifikationen nutzen könnte. Darüber hinaus sollen zuverlässige statistische Methoden zur Signifikanzüberprüfung der festgestellten Entwicklungen ausgearbeitet, implementiert und erprobt werden.

  • Entwicklung einer Textclustering-Software für die Auswertung von Meinungsumfragen mit RogTCS

    (Drittmittelfinanzierte Einzelförderung)

    Laufzeit: seit 3. Juni 2013
    Mittelgeber: Industrie
    URL: https://www.rogator.de/software/textanalysesoftware/

    Gegenstand des Projekts ist die Erprobung verschiedener computerlinguistischer Verfahren zur halbautomatischen Auswertung offener Fragen in Meinungsumfragen. Im Mittelpunkt stehen dabei die Identifikation wichtiger Themen (topic analysis), die Erkennung positiver, negativer und neutraler Bewertungen (polarity detection) sowie die Visualisierung der automatischen Auswertungen. Die eingesetzten Verfahren sind weitgehend sprachunabhängig und werden im Rahmen des Projekts auf deutsche und englische Textdaten angewendet.

Im Folgenden werden neuere Publikationen ab 2015 aufgeführt.

Bücher

Beiträge in Fachzeitschriften

Beiträge in Sammelwerken

Beiträge bei Tagungen

Weitere Informationen finden Sie in CRIS.

Es wurden leider keine Aktivitäten gefunden.