Navigation

Lehrstuhl für Korpus- und Computerlinguistik

Der Lehrstuhl für Korpus- und Computerlinguistik betreibt methodologische Grundlagenforschung zur quantitativen Auswertung großer Textkorpora. Die entwickelten Algorithmen und Softwarewerkzeuge werden für Untersuchungen im Bereich der digitalen Geistes- und Sozialwissenschaftlichen wie auch für sprachtechnologische Anwendungen genutzt. Ein inhaltlicher Schwerpunkt liegt dabei auf Kookkurrenzphänomenen und der korpusbasierten Diskursanalyse.

Der Lehrstuhl hat eine eigene Homepage in englischer Sprache. Besuchen Sie uns!

Leitung

Sekretariat

Wissenschaftliche Mitarbeiter

Nichtwissenschaftliches Personal

  • Rekonstruktion von Argumenten aus Noisy Text (SPP 1999: RATIO)
    (Drittmittelfinanzierte Einzelförderung)
    Laufzeit: 01.01.2018 - 31.12.2020
    Mittelgeber: Deutsche Forschungsgemeinschaft (DFG)
    Soziale Medien spielen in der gesellschaftlichen Meinungsbildung eine wachsende Rolle. Gegenstand von RANT ist die Entwicklung von Methoden und Formalismen zur Extraktion, Repräsentation und Verarbeitung von Argumenten aus Texten geringer linguistischer Qualität, wie sie eben in Diskussionen auf sozialen Medien anzutreffen sind, anhand einer laufenden Fallstudie an einem großen Korpus von vor dem Referendum verbreiteten Twitter-Botschaften zum Thema Brexit. Wir werden eine korpuslinguistische Studie zur Identifikation wiederkehrender sprachlicher Argumentationsschemata durchführen und anhand dieser Schemata im Sinne eines High-Precision-Low-Recall-Ansatzes entsprechende Korpusanfragen zur Extraktion von Argumenten entwerfen. In der Tat erwarten wir, dass sich Argumentationsschemata unmittelbar mit logischen Schemata in einem dedizierten Formalismus in Verbindung bringen lassen und somit einzelne Argumente direkt als logische Formeln geparst werden können. Der zur Argumentrepräsentation verwendete Formalismus wird ein breites Spektrum an Modalitäten beinhalten, die in realen Texten auftretende sprachlich-semantische Phänomene wie Unsicherheit, Wirkung, Präferenz, Sentiment, Vagheit und Default-Implikation widerspiegeln. Wir werden einen solchen Formalismus als Familie von Instanzlogiken in der koalgebraischen Logik darstellen, die als generisches logisches Rahmenwerk vereinheitlichte semantische, deduktive und algorithmische Methoden für Modalitäten jenseits der üblichen relationalen Semantik zur Verfügung stellt; insbesondere werden wir Deduktionswerkzeuge für Argumentationslogiken auf bestehende generische koalgebraische Werkzeuge aufbauen. Die so entstehende logische Sprache zur Repräsentation einzelner Argumente wird ergänzt durch ein flexibles Rahmenwerk zur Repräsentation von Beziehungen zwischen Argumenten. Hierzu gehören sowohl in der Argumentationstheorie verbreitet betrachtete Relationen wie die Angriffs- und Unterstützungsrelationen sowie aus den Metadaten des Korpus gewonnene Beziehungen wie Zitation, Hashtags oder direkte Ansprache (per Erwähnung von Benutzernamen) als auch solche Beziehungen, die sich erst durch logische Schlussfolgerung aus dem Inhalt der Argumente ergeben. Insbesondere letztere Beziehungen stellen sich semantisch oft nicht als Relationen im engeren Sinne dar, sondern involvieren z.B. kontinuierliche Wahrheitswerte, Präferenzordnungen oder Wahrscheinlichkeiten und profitieren insofern von einer einheitlichen koalgebraischen Modellierung, die auch die semantische Grundlage der koalgebraischen bildet. Wir werden dementsprechend geeignete Verallgemeinerungen der für Dung's Argumentation Frameworks definierten Extensionssemantiken entwickeln und somit letztlich Begriffe wie „kohärenter Standpunkt“ oder „verbreitete Sichtweise“ formal einfangen; in Verbindung mit entsprechenden algorithmischen Methoden wird dies die automatisierte Extraktion umfassender argumentativer Positionen aus dem Korpus erlauben.
  • Komplexität literatischer Werke aus stilometrischer Sicht im Digital Humanities-Zentrum KALLIMACHOS
    (Drittmittelfinanzierte Gruppenförderung – Teilprojekt)
    Titel des Gesamtprojektes: KALLIMACHOS – Zentrum für digitale Edition und quantitative Analyse an der Universität Würzburg
    Laufzeit: 01.10.2017 - 30.09.2019
    Mittelgeber: BMBF / Verbundprojekt

    Im Rahmen dieses Teilprojekts entwickelt der Lehrstuhl für Korpus- und Computerlinguistik robuste Maße für lexikalische Komplexität, erweitert den Komplexitätsbegriff über die gängige vocabulary richness hinaus und implementiert die Ergebnisse in einer
    frei verfügbaren stilometrischen Toolbox.

  • Exploring the “Fukushima Effect”: Meinungsnetze und politische Willensbildung in der transnationalen algorithmischen Öffentlichkeit
    (FAU Funds)
    Laufzeit: 01.01.2017 - 31.12.2018
    Die Digitalisierung der Gesellschaft und der Mediensysteme hat immense Auswirkungen auf (politische) Meinungsbildung und Diskurse. Dieses Projekt widmet sich der Untersuchung eines komplexen Phänomens, das im Zeitalter globalisierter Massenmedien und einer nationale Grenzen überschreitenden Konnektivität in den Sozialen Medien entstanden ist und von uns als transnationale algorithmische Öffentlichkeit bezeichnet wird. Eine interdisziplinäre Kombination aus computerlinguistischen Verfahren, Netzwerkvisualisierung, interkultureller Hermeneutik und kommunikationswissenschaftlicher Inhaltsanalyse ermöglicht es uns, die diesem Phänomen zugrundeliegenden Prozesse zu analysieren und abzubilden. Thematisch befasst sich das Projekt mit der politisch aktuellen Diskussion zur Atomenergie und Energiewende nach Fukushima in Deutschland und Japan.
  • Effiziente Simulationsexperimente zur Parameteroptimierung speicherintensiver computerlinguistischer Lernverfahren
    (Drittmittelfinanzierte Einzelförderung)
    Laufzeit: 01.10.2016 - 30.09.2017
    Mittelgeber: Bayerisches Staatsministerium für Bildung und Kultus, Wissenschaft und Kunst (ab 10/2013)
    Ziel des Projekts ist es, speicherintensive maschinelle Lernverfahren für den Einsatz auf HPC-Clustern zu optimieren, um Simulationsexperimente zur systematischen Parameteroptimierung der Verfahren durchführen zu können. Als prototypischer Anwendungsfall dienen Matrixfaktorisierungen und Deep Learning-Modelle in der distributionellen Semantik.
  • Mehrsprachigkeit und Migration
    (Projekt aus Eigenmitteln)
    Laufzeit: 01.01.2016 - 01.01.2019
  • Englisches Konstruktikon
    (Projekt aus Eigenmitteln)
    Laufzeit: 01.01.2016 - 01.01.2019
  • Korpuslinguistische Methoden und statistische Auswertungen im Digital Humanities-Zentrum KALLIMACHOS
    (Drittmittelfinanzierte Gruppenförderung – Teilprojekt)
    Titel des Gesamtprojektes: KALLIMACHOS – Zentrum für digitale Edition und quantitative Analyse an der Universität Würzburg
    Laufzeit: 01.10.2014 - 30.09.2017
    Mittelgeber: BMBF / Verbundprojekt
    URL: http://www.kallimachos.de/
    In diesem Teilprojekt soll das Verständnis für die mathematischen Eigenschaften der literarischen Autorschaftsattribution mit stilometrischen Abstandsmaßen verbessert werden. Außerdem ist die Trennung von Autor-, Gattungs- und Epochensignal in stilometrischen Analysen von großem Interesse, da dies wiederum der Zuverlässigkeit einer automatischen Genreklassifikationen nutzen könnte. Darüber hinaus sollen zuverlässige statistische Methoden zur Signifikanzüberprüfung der festgestellten Entwicklungen ausgearbeitet, implementiert und erprobt werden.
  • Entwicklung einer Textclustering-Software für die Auswertung von Meinungsumfragen mit RogTCS
    (Drittmittelfinanzierte Einzelförderung)
    Laufzeit: 03.06.2013 - 03.06.2016
    Mittelgeber: Industrie
    URL: https://www.rogator.de/software/textanalysesoftware/
    Gegenstand des Projekts ist die Erprobung verschiedener computerlinguistischer Verfahren zur halbautomatischen Auswertung offener Fragen in Meinungsumfragen. Im Mittelpunkt stehen dabei die Identifikation wichtiger Themen (topic analysis), die Erkennung positiver, negativer und neutraler Bewertungen (polarity detection) sowie die Visualisierung der automatischen Auswertungen. Die eingesetzten Verfahren sind weitgehend sprachunabhängig und werden im Rahmen des Projekts auf deutsche und englische Textdaten angewendet.

Im Folgenden werden neuere Publikationen ab 2015 aufgeführt.

Bücher

Beiträge in Fachzeitschriften

Beiträge in Sammelbänden

Beiträge bei Tagungen

Weitere Informationen finden Sie in CRIS.

Es wurden leider keine Aktivitäten gefunden.

 

Lehrstuhl für Korpus- und Computerlinguistik

  • Adresse:
    Bismarckstr. 6
    91054 Erlangen

Leitung / Sekretariat:

  • Prof. Dr. Stefan Evert
  • Tanja Schorr