Korpus- und Computerlinguistik

Der Lehrstuhl für Korpus- und Computerlinguistik betreibt methodologische Grundlagenforschung zur quantitativen Auswertung großer Textkorpora. Die entwickelten Algorithmen und Softwarewerkzeuge werden für Untersuchungen im Bereich der digitalen Geistes- und Sozialwissenschaftlichen wie auch für sprachtechnologische Anwendungen genutzt. Ein inhaltlicher Schwerpunkt liegt dabei auf Kookkurrenzphänomenen und der korpusbasierten Diskursanalyse.

Der Lehrstuhl hat eine eigene Homepage in englischer Sprache. Besuchen Sie uns!

Team

Leitung

Prof. Dr. Stephanie Evert

Raum 4.000
Bismarckstraße 6
91054 Erlangen

Telefon: +49 9131 85-22426
Mobil: +491734959785
E-Mail: stephanie.evert@fau.de
Webseite: https://www.stephanie-evert.de/

Mehr ›

Wissenschaftliche Mitarbeiter

Andreas Blombach, M.A.

Bismarckstraße 6
91054 Erlangen

Telefon: +49 9131 85-25905
E-Mail: andreas.blombach@fau.de
Webseite: https://www.germanistik.phil.fau.de/person/blombach-andreas/

Mehr ›

Dr.-Ing. Besim Kabashi, M.A.

Bismarckstr. 6
91054 Erlangen

Mehr ›

Nathan Dykes, M.A.

Bismarckstr. 6
91054 Erlangen

Telefon: +49 9131 85-25908
E-Mail: nathan.dykes@fau.de

Mehr ›

Philipp Heinrich, M.Sc.

Bismarckstr. 6
91054 Erlangen

Mehr ›

Sekretariat

Anke Lutz

Sekretariat

Raum 4.000
Bismarckstr. 6
91054 Erlangen

Telefon: +49 9131 85-25906
Mobil: 01734959784
E-Mail: anke.lutz@fau.de
Webseite: https://www.linguistik.uni-erlangen.de/

Mehr ›

Lehrveranstaltungen

Vorlesung

Vorlesung Grundlagen der Computerlinguistik 2

Hauptseminar

Oberseminar

Oberseminar Computerlinguistik

Übung

Übung Grundlagen der Computerlinguistik 2

Forschungsschwerpunkte

Methodologie der Korpuslinguistik und Digital Humanities

Korpuswerkzeuge und sprachtechnologische Anwendungen

Kookkurrenzphänomene und korpusbasierte Diskursanalyse

Forschungsprojekte

DFG-Projekt: Die Normalisierung rechtspopulistischer und neurechter Diskurse in Japan und Deutschland

(Drittmittelfinanzierte Gruppenförderung – Gesamtprojekt)

Laufzeit: 1. April 2022 - 31. März 2025
Mittelgeber: Deutsche Forschungsgemeinschaft (DFG)

Abstract

Der Lehrstuhl Japanologie mit dem Schwerpunkt Japan derModerne und Gegenwart ist Teil des durch die DFG geförderten Projekts „Die Normalisierungrechtspopulistischer und neurechter Diskurse in Japan und Deutschland“ ,das interdisziplinär in Kooperation mit dem Lehrstuhl für Korpus- undComputerlinguistik durch die Philosophische Fakultät der FAU durchgeführt wird.

In diesem vergleichend angelegten Forschungsprojekt wird ausdiskursanalytischer Perspektive verschiedene Instanzen des politischenPopulismus als „schlanke Ideologie“ (Mudde/Kaltwasser) in ihrer jeweiligenideologischen Nähe zu neurechten Diskursen in Japan und Deutschland.Insbesondere analysiert werden die langfristigen Auswirkungen neurechterdiskursiver Strategien und rechtspopulistischer Politik auf die Alltagsspracheund das politische Diskursfeld mit den Methoden der Korpus- undComputerlinguistik sowie der korpusbasierten kritischen Diskursanalyse.

→Mehr Informationen
Tracking the infodemic: Conspiracy theories in the corona crisis

(Drittmittelfinanzierte Einzelförderung)

Laufzeit: 1. April 2021 - 30. September 2022
Mittelgeber: Volkswagen Stiftung

Abstract

Welche Kreise ziehen Verschwörungstheorien? Das Projekt untersucht diese Frage, indem wir mit Methoden der Korpuslinguistik den Gebrauch und die Verbreitung von Verschwörungstheorien anhand typischer Sprachmuster analysieren. Außerdem untersuchen wir die diskursiven Strategien, die Verschwörungstheorien mit rechtspopulistischen und extremistischen Diskursen gemeinsam haben. Ziel des Projekts ist es nicht nur, wichtige Einsichten in den Diskurs zur Corona-Pandemie zu gewinnen, sondern auch, die verwendeten Methoden weitgehend zu automatisieren, sodass sie eingesetzt werden können, um die Verbreitung anderer Verschwörungstheorien und Fehlinformationen zu untersuchen, etwa indem bestimmte Argumentationsmuster automatisch identifiziert werden.

→Mehr Informationen
Argumentrekonstruktion aus Politischen Debatten

(Drittmittelfinanzierte Einzelförderung)

Laufzeit: 1. Januar 2021 - 31. Dezember 2023
Mittelgeber: DFG / Schwerpunktprogramm (SPP)
URL: https://www.linguistik.phil.fau.de/projects/rant/

Abstract

Politische Debatten liegen heutzutage zu großen Teilen in maschinenlesbarer Form vor – in der formellen Öffentlichkeit von Parlamentsdebatten ebenso wie in der Halböffentlichkeit sozialer Medien. Dies eröffnet die Möglichkeit, sich mit automatischen Textanalysemethoden einen breiten Überblick über die vorgebrachten Argumente zu verschaffen. Das Projekt RANT/RAND entwickelt im Rahmen des SPP RATIO (Robust Argumentation Machines) zu diesem Zweck einen kombinierten Ansatz, in den Methoden aus Logik und Korpuslinguistik einfließen. Da aufgrund der riesigen Menge verfügbarer Daten davon ausgegangen werden kann, dass alle wichtigen Argumente auch bei relativ niedriger Sensitivität gefunden werden, setzen unsere Verfahren auf hohe Genauigkeit (auf Kosten der Sensitivität). Dazu erstellen wir eine Liste von Logikmustern, die gängigen Argumentationsschemata entsprechen (z.B. Argumentum ad verecundiam) und im Wesentlichen als mit Platzhaltern versehene Formeln in speziellen Modallogiken betrachtet werden können. Jedes Logikmuster ist mit mehreren sprachlichen Realisierungen verknüpft, die in korpuslinguistischen Studien erarbeitet und gleichzeitig in Form von Suchanfragen operationalisiert werden. Unser Ansatz verbindet somit die Entwicklung automatischer Methoden zur Argumentextraktion mit neuen Erkenntnissen über linguistische Aspekte insbesondere der umgangssprachlichen politischen Argumentation. Die aktuell laufende erste Phase des Projekts konzentriert sich auf die Entwicklung und Evaluation von Logikmustern und korpuslinguistischen Suchanfragen für einzelne Argumente anhand einer Fallstudie auf einem großen englischsprachigen Twitter-Korpus. In der zweiten Projektphase werden wir die Robustheit unseres Ansatzes testen, indem wir weitere extsorten mit einbeziehen und insbesondere auch längere kohärente Texte wie Zeitungsartikel und Parlamentsdebatten analysieren. Zudem arbeiten wir in der zweiten Phase mit deutschsprachigen Texten, die mit korpuslinguistischen Suchanfragen wesentlich schwieriger zu erfassen sind (u.a. aufgrund diskontinuierlicher Konstituenten und eines deutlich kleineren Angebots qualitativ hochwertiger NLP-Werkzeuge). Ein weiterer entscheidender Schritt ist der Einsatz ähnlichkeitsbasierter Methoden, um aus den extrahierten Argumenten komplexe Schlussfolgerungen ziehen zu können. Dazu werden Platzhalter in den extrahierten Formeln mit speziell auf unsere Anforderungen zugeschnittenen Embedding-Vektoren ausgefüllt. Ferner werden wir unseren Ansatz auf die Extraktion von Argumentationsstrukturen, d.h. explizite und implizite Verweise zwischen Argumenten, ausdehnen. Ergänzend dazu werden wir die logische Struktur von Argumentation über Planung untersuchen und Querverbindungen zwischen Argumentation und zwischenmenschlichen Beziehungen herstellen (z.B. in Ad-hominem-Argumenten).

→Mehr Informationen
Automatische Anonymisierung und Pseudonymisierung von Gerichtsurteilen

(Drittmittelfinanzierte Einzelförderung)

Laufzeit: 1. April 2020 - 31. März 2022
Mittelgeber: Bayerisches Staatsministerium der Justiz (StMJ)

→Mehr Informationen
Korpus- und Computerlinguistik interkulturell

(Drittmittelfinanzierte Einzelförderung)

Laufzeit: 1. März 2020 - 31. August 2021
Mittelgeber: Bayerische Forschungsallianz (BayFOR)

→Mehr Informationen
Rekonstruktion von Argumenten aus Noisy Text (SPP 1999: RATIO)

(Drittmittelfinanzierte Einzelförderung)

Laufzeit: 1. Januar 2018 - 31. Dezember 2020
Mittelgeber: Deutsche Forschungsgemeinschaft (DFG)

Abstract

Soziale Medien spielen in der gesellschaftlichen Meinungsbildung eine wachsende Rolle. Gegenstand von RANT ist die Entwicklung von Methoden und Formalismen zur Extraktion, Repräsentation und Verarbeitung von Argumenten aus Texten geringer linguistischer Qualität, wie sie eben in Diskussionen auf sozialen Medien anzutreffen sind, anhand einer laufenden Fallstudie an einem großen Korpus von vor dem Referendum verbreiteten Twitter-Botschaften zum Thema Brexit. Wir werden eine korpuslinguistische Studie zur Identifikation wiederkehrender sprachlicher Argumentationsschemata durchführen und anhand dieser Schemata im Sinne eines High-Precision-Low-Recall-Ansatzes entsprechende Korpusanfragen zur Extraktion von Argumenten entwerfen. In der Tat erwarten wir, dass sich Argumentationsschemata unmittelbar mit logischen Schemata in einem dedizierten Formalismus in Verbindung bringen lassen und somit einzelne Argumente direkt als logische Formeln geparst werden können. Der zur Argumentrepräsentation verwendete Formalismus wird ein breites Spektrum an Modalitäten beinhalten, die in realen Texten auftretende sprachlich-semantische Phänomene wie Unsicherheit, Wirkung, Präferenz, Sentiment, Vagheit und Default-Implikation widerspiegeln. Wir werden einen solchen Formalismus als Familie von Instanzlogiken in der koalgebraischen Logik darstellen, die als generisches logisches Rahmenwerk vereinheitlichte semantische, deduktive und algorithmische Methoden für Modalitäten jenseits der üblichen relationalen Semantik zur Verfügung stellt; insbesondere werden wir Deduktionswerkzeuge für Argumentationslogiken auf bestehende generische koalgebraische Werkzeuge aufbauen. Die so entstehende logische Sprache zur Repräsentation einzelner Argumente wird ergänzt durch ein flexibles Rahmenwerk zur Repräsentation von Beziehungen zwischen Argumenten. Hierzu gehören sowohl in der Argumentationstheorie verbreitet betrachtete Relationen wie die Angriffs- und Unterstützungsrelationen sowie aus den Metadaten des Korpus gewonnene Beziehungen wie Zitation, Hashtags oder direkte Ansprache (per Erwähnung von Benutzernamen) als auch solche Beziehungen, die sich erst durch logische Schlussfolgerung aus dem Inhalt der Argumente ergeben. Insbesondere letztere Beziehungen stellen sich semantisch oft nicht als Relationen im engeren Sinne dar, sondern involvieren z.B. kontinuierliche Wahrheitswerte, Präferenzordnungen oder Wahrscheinlichkeiten und profitieren insofern von einer einheitlichen koalgebraischen Modellierung, die auch die semantische Grundlage der koalgebraischen bildet. Wir werden dementsprechend geeignete Verallgemeinerungen der für Dung's Argumentation Frameworks definierten Extensionssemantiken entwickeln und somit letztlich Begriffe wie „kohärenter Standpunkt“ oder „verbreitete Sichtweise“ formal einfangen; in Verbindung mit entsprechenden algorithmischen Methoden wird dies die automatisierte Extraktion umfassender argumentativer Positionen aus dem Korpus erlauben.

→Mehr Informationen
Komplexität literatischer Werke aus stilometrischer Sicht im Digital Humanities-Zentrum KALLIMACHOS

(Drittmittelfinanzierte Gruppenförderung – Teilprojekt)

Titel des Gesamtprojektes: KALLIMACHOS – Zentrum für digitale Edition und quantitative Analyse an der Universität Würzburg
Laufzeit: 1. Oktober 2017 - 30. September 2019
Mittelgeber: BMBF / Verbundprojekt

Abstract

Im Rahmen dieses Teilprojekts entwickelt der Lehrstuhl für Korpus- und Computerlinguistik robuste Maße für lexikalische Komplexität, erweitert den Komplexitätsbegriff über die gängige vocabulary richness hinaus und implementiert die Ergebnisse in einerfrei verfügbaren stilometrischen Toolbox.

→Mehr Informationen
Exploring the “Fukushima Effect”: Meinungsnetze und politische Willensbildung in der transnationalen algorithmischen Öffentlichkeit

(FAU Funds)

Laufzeit: 1. Januar 2017 - 31. Dezember 2019
URL: https://www.linguistik.phil.fau.de/projects/efe/

Abstract

Die Digitalisierung der Gesellschaft und der Mediensysteme hat immense Auswirkungen auf (politische) Meinungsbildung und Diskurse. Dieses Projekt widmet sich der Untersuchung eines komplexen Phänomens, das im Zeitalter globalisierter Massenmedien und einer nationale Grenzen überschreitenden Konnektivität in den Sozialen Medien entstanden ist und von uns als transnationale algorithmische öffentlichkeit bezeichnet wird. Eine interdisziplinäre Kombination aus computerlinguistischen Verfahren, Netzwerkvisualisierung, interkultureller Hermeneutik und kommunikationswissenschaftlicher Inhaltsanalyse ermöglicht es uns, die diesem Phänomen zugrundeliegenden Prozesse zu analysieren und abzubilden. Thematisch befasst sich das Projekt mit der politisch aktuellen Diskussion zur Atomenergie und Energiewende nach Fukushima in Deutschland und Japan.

→Mehr Informationen
Effiziente Simulationsexperimente zur Parameteroptimierung speicherintensiver computerlinguistischer Lernverfahren

(Drittmittelfinanzierte Einzelförderung)

Laufzeit: 1. Oktober 2016 - 30. September 2017
Mittelgeber: Bayerisches Staatsministerium für Bildung und Kultus, Wissenschaft und Kunst (ab 10/2013)

Abstract

Ziel des Projekts ist es, speicherintensive maschinelle Lernverfahren für den Einsatz auf HPC-Clustern zu optimieren, um Simulationsexperimente zur systematischen Parameteroptimierung der Verfahren durchführen zu können. Als prototypischer Anwendungsfall dienen Matrixfaktorisierungen und Deep Learning-Modelle in der distributionellen Semantik.

→Mehr Informationen
Reisekostenbeihilfe für Konferenzreise nach Portozoz

(Drittmittelfinanzierte Einzelförderung)

Laufzeit: 1. August 2016 - 31. Oktober 2016
Mittelgeber: Stiftungen

→Mehr Informationen
Mehrsprachigkeit und Migration

(Projekt aus Eigenmitteln)

Laufzeit: seit 1. Januar 2016

→Mehr Informationen
Englisches Konstruktikon

(Projekt aus Eigenmitteln)

Laufzeit: seit 1. Januar 2016

→Mehr Informationen
Korpuslinguistische Methoden und statistische Auswertungen im Digital Humanities-Zentrum KALLIMACHOS

(Drittmittelfinanzierte Gruppenförderung – Teilprojekt)

Titel des Gesamtprojektes: KALLIMACHOS – Zentrum für digitale Edition und quantitative Analyse an der Universität Würzburg
Laufzeit: 1. Oktober 2014 - 30. September 2017
Mittelgeber: BMBF / Verbundprojekt
URL: http://www.kallimachos.de/

Abstract

In diesem Teilprojekt soll das Verständnis für die mathematischen Eigenschaften der literarischen Autorschaftsattribution mit stilometrischen Abstandsmaßen verbessert werden. Außerdem ist die Trennung von Autor-, Gattungs- und Epochensignal in stilometrischen Analysen von großem Interesse, da dies wiederum der Zuverlässigkeit einer automatischen Genreklassifikationen nutzen könnte. Darüber hinaus sollen zuverlässige statistische Methoden zur Signifikanzüberprüfung der festgestellten Entwicklungen ausgearbeitet, implementiert und erprobt werden.

→Mehr Informationen
Entwicklung einer Textclustering-Software für die Auswertung von Meinungsumfragen mit RogTCS

(Drittmittelfinanzierte Einzelförderung)

Laufzeit: seit 3. Juni 2013
Mittelgeber: Industrie
URL: https://www.rogator.de/software/textanalysesoftware/

Abstract

Gegenstand des Projekts ist die Erprobung verschiedener computerlinguistischer Verfahren zur halbautomatischen Auswertung offener Fragen in Meinungsumfragen. Im Mittelpunkt stehen dabei die Identifikation wichtiger Themen (topic analysis), die Erkennung positiver, negativer und neutraler Bewertungen (polarity detection) sowie die Visualisierung der automatischen Auswertungen. Die eingesetzten Verfahren sind weitgehend sprachunabhängig und werden im Rahmen des Projekts auf deutsche und englische Textdaten angewendet.

→Mehr Informationen

Publikationen

Im Folgenden werden neuere Publikationen ab 2015 aufgeführt.

Beiträge in Sammelwerken

Adrian, Axel, et al. "Auslegung des KI-VO-E zur Evaluation von Verfahren der Künstlichen Intelligenz am Beispiel der automatischen Anonymisierung von Gerichtsentscheidungen." Sprachmodelle: Juristische Papageien oder mehr? – Tagungsband des 27. Internationalen Rechtsinformatik Symposions IRIS 2024. Hrg. Erich Schweighofer / Stefan Eder / Federico Costantini / Felix Schmautzer / Jonas Pfister, 2024. 205 - 215.
Lindner-Bornemann, Bettina, and Andreas Blombach. "„Ach [...] was wars so dunkel in dem Wolf seinem Leib!“ Zur diachronen Entwicklung des possessiven Dativs." Historische (Morpho-)Syntax des Deutschen. Hrg. Alexander Lasch / Kerstin Roth / Dominik Hetjens, Berlin / Boston: De Gruyter, 2023. 298-316.
URL: https://www.degruyter.com/document/doi/10.1515/jbgsg-2023-0019/html
Adrian, Axel, et al. "Automatische Anonymisierung von Gerichtsurteilen – Eine Vision scheint realisierbar." Rechtsinformatik als Methodenwissenschaft des Rechts – Tagungsband des 26. Internationalen Rechtsinformatik Symposions IRIS 2023. Hrg. Erich Schweighofer / Jakob Zanol / Stefan Eder, Editions Weblaw, 2023. 211 - 220.
Peters, Joachim, and Nathan Dykes. "Die Palliativmedizinische Fachkultur in Geschichte und Gegenwart – sprachwissenschaftliche Perspektiven." Linguistik und Medizin. Ed. Ilg, Yvonne, Schnedermann, Theresa, Iakushevich, Marina, Berlin, New York: De Gruyter, 2022. 194-214.
Adrian, Axel, et al. "Manuelle und automatische Anonymisierung von Urteilen." Digitalisierung von Zivilprozess und Rechtsdurchsetzung. Hrg. Adrian, Axel/Kohlhase, Michael/Evert, Stephanie/Zwickel, Martin, 2022. 173-197.
Dykes, Nathan, Philipp Heinrich, and Stephanie Evert. "Retrieving Twitter argumentation with corpus queries and discourse analysis." Broadening the Spectrum of Corpus Linguistics: New approaches to variability and change. Ed. Susanne Flach, Martin Hilpert, John Benjamins Publishing Company, 2022. 229-256.
Pfaffenberger, Fabian, and Philipp Heinrich. "Die überschätzte Gefahr? Twitter-Bots im Europawahlkampf 2019." Europawahlkampf 2019: Zur Rolle der Medien. Ed. Holtz-Bacha C, Wiesbaden: Springer, 2021. 115 - 148.
Keuchen, Michael, et al. "Anonymisierung von Gerichtsurteilen – Eine wesentliche Voraussetzung für E-Justice –." Cybergovernance - Tagungsband des 24. Internationalen Rechtsinformatik Symposions IRIS 2021. Hrg. Schweighofer E, Eder S, Hanke P, Kummer F, Saarenpää A, Editions Weblaw, 2021. 137 - 149.
Griebel, Tim, Stephanie Evert, and Philipp Heinrich. "Possibilities and Challenges of Corpus-Assisted Discourse Analyses of Austerity in the United Kingdom." Multimodal Approaches to Media Discourses: Reconstructing the Age of Austerity in the United Kingdom. Ed. Griebel T, Evert S, Heinrich P, London: Routledge, 2020. 1 - 10.
Griebel, Tim, and Philipp Heinrich. "The Cultural Political Economy of Brexit in the Age of Austerity." Multimodal Approaches to Media Discourses: Reconstructing the Age of Austerity in the United Kingdom. Ed. Griebel T, Evert S, Heinrich P, London: Routledge, 2020. 163 - 188.
Adrian, Christoph, et al. "Will the real populism (please) stand out? Eine interdisziplinäre Aufarbeitung populistischer Tendenzen in Brexit-Tweets im Kontext der Europawahl 2019." Europawahlkampf 2019. Ed. Christina Holtz-Bacha, Wiesbaden: Springer VS, 2020. 245-274.
Pfaffenberger, Fabian, Christoph Adrian, and Philipp Heinrich. "Was bin ich – und wenn ja, wie viele? Identifikation und Analyse von Political Bots während des Bundestagswahlkampfs 2017 auf Twitter." Die (Massen-)Medien im Wahlkampf: Die Bundestagswahl 2017. Ed. Holtz-Bacha, Christina, Wiesbaden: Springer, 2019. 97 - 124.
Dimpel, Friedrich Michael, and Thomas Proisl. "Gute Wörter für Delta: Verbesserung der Autorschaftsattribution durch autorspezifische distinktive Wörter." DHd 2019. Digital Humanities: multimedial & multimodal. Konferenzabstracts. Ed. Patrick Sahle, 2019. 296–299.
URL: https://zenodo.org/record/2596095
Uhrig, Peter, Stephanie Evert, and Thomas Proisl. "Collocation Candidate Extraction from Dependency-Annotated Corpora: Exploring Differences across Parsers and Dependency Annotation Schemes." Lexical Collocation Analysis: Advances and Applications. Ed. Cantos-Gómez P, Almela-Sánchez M, Cham: Springer International Publishing, 2018. 111–140.
Evert, Stephanie, and Stella Neumann. "The impact of translation direction on characteristics of translated texts. A multivariate analysis for English and German." Empirical Translation Studies. New Theoretical and Methodological Traditions. Ed. De Sutter G, Lefer M, Delaere I, Berlin: Mouton de Gruyter, 2017. 47-80.
URL: http://www.stefan-evert.de/PUB/EvertNeumann2017/

Beiträge bei Tagungen

Blombach, Andreas, et al. "Exploring Lexical Diversities." Proceedings of the Digital Humanities 2022, Tokyo 2022. 130-134.
URL: https://dh2022.dhii.asia/dh2022bookofabsts.pdf
Chiarcos, Christian, et al. "Modelling Collocations in OntoLex-FrAC." Proceedings of the Proceedings of Globalex Workshop on Linked Lexicography within the 13th Language Resources and Evaluation Conference Marseille, France: European Language Resources Association, 2022. 10--18.
URL: https://aclanthology.org/2022.gwll-1.3
Gracia, Jorge, Besim Kabashi, and Ilan Kernerman. "TIAD 2022: The Fifth Translation Inference Across Dictionaries Shared Task." Proceedings of the Proceedings of Globalex Workshop on Linked Lexicography within the 13th Language Resources and Evaluation Conference Marseille, France: European Language Resources Association, 2022. 19--25.
URL: https://aclanthology.org/2022.gwll-1.4
Tayebi Arasteh, Soroosh, et al. "How Will Your Tweet Be Received? Predicting the Sentiment Polarity of Tweet Replies." Proceedings of the IEEE 15th International Conference on Semantic Computing (ICSC), Laguna Hills, CA, USA Ed. IEEE, 2021. 370-373.
URL: https://ieeexplore.ieee.org/document/9364527
Gracia, Jorge, Besim Kabashi, and Ilan Kernerman. "Results of the Translation Inference Across Dictionaries 2021 Shared Task." Proceedings of the The Translation Inference Across Dictionaries 2021 Shared Task Ed. Carvalho S, Souza RR, Zaragoza, Spain: CEUR-WS.org,, 2021. 208--220.
URL: http://ceur-ws.org/Vol-3064/tiad4.pdf
Proisl, Thomas, and Gabriella Lapesa. "KLUMSy@KIPoS: Experiments on Part-of-Speech Tagging of Spoken Italian." Proceedings of the 7th Evaluation Campaign of Natural Language Processing and Speech Tools for Italian (EVALITA 2020), Online Ed. Basile V, Croce D, Di Maro M, Passaro L, CEUR-WS.org, 2020.
URL: http://ceur-ws.org/Vol-2765/paper140.pdf
Blombach, Andreas, et al. "A Corpus of German Reddit Exchanges (GeRedE)." Proceedings of the 12th International Conference on Language Resources and Evaluation, LREC 2020, Marseille Ed. Nicoletta Calzolari, Frederic Bechet, Philippe Blache, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis, European Language Resources Association (ELRA), 2020. 6310-6316.
URL: https://www.aclweb.org/anthology/2020.lrec-1.774
Dykes, Nathan, Philipp Heinrich, and Andreas Blombach. "Independent argumentation schemes? Transferring argument queries from Brexit to environment tweets." Presented at ICAME41, Heidelberg 2020.
Blombach, Andreas, et al. "A new German Reddit corpus." Proceedings of the 15th Conference on Natural Language Processing, KONVENS 2019, Erlangen-Nurnberg German Society for Computational Linguistics and Language Technology, 2020. 278-279.
Evert, Stephanie, et al. "Corpus query lingua franca part II: Ontology." Proceedings of the 12th International Conference on Language Resources and Evaluation, LREC 2020, Marseille Ed. Nicoletta Calzolari, Frederic Bechet, Philippe Blache, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis, European Language Resources Association (ELRA), 2020. 3346-3352.
Proisl, Thomas, et al. "EmpiriST Corpus 2.0: Adding Manual Normalization, Lemmatization and Semantic Tagging to a German Web and CMC Corpus." Proceedings of the 12th International Conference on Language Resources and Evaluation, LREC 2020, Marseille Ed. Nicoletta Calzolari, Frederic Bechet, Philippe Blache, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis, European Language Resources Association (ELRA), 2020. 6142-6148.
URL: https://www.aclweb.org/anthology/2020.lrec-1.754
Dykes, Nathan, Philipp Heinrich, and Stephanie Evert. "Arguing Brexit on Twitter. A corpus linguistic study." Presented at European Conference on Argumentation 2019, Groningen 2019.
Dykes, Nathan, Philipp Heinrich, and Stephanie Evert. "Reconstructing Twitter arguments with corpus linguistics." Presented at ICAME40: Language in Time, Time in Language, Neuchâtel 2019.
Kabashi, Besim. "Collecting collocations for the Albanian language." Proceedings of the 6th Biennial Conference on Electronic Lexicography in the 21st Century: Smart Lexicography, eLex 2019, Sintra Ed. Iztok Kosem, Tanara Zingano Kuhn, Margarita Correia, Jose Pedro Ferreira, Maarten Jansen, Isabel Pereira, Jelena Kallas, Milos Jakubicek, Simon Krek, Carole Tiberius, Lexical Computing CZ s.r.o., 2019. 478-489.
Gracia, Jorge, et al. "Results of the translation inference across dictionaries 2019 shared task." Proceedings of the 2nd TIAD Shared Task - Translation Inference Across Dictionaries, TIAD 2019, Leipzig Ed. Jorge Gracia, Besim Kabashi, Besim Kabashi, Ilan Kernerman, CEUR-WS, 2019. 1-12.
Proisl, Thomas, et al. "The_Illiterati: Part-of-Speech Tagging for Magahi and Bhojpuri Without Even Knowing the Alphabet." Proceedings of the First International Workshop on NLP Solutions for Under Resourced Languages (NSURL 2019), Trento Association for Computational Linguistics, 2019. 73-79.
URL: https://www.aclweb.org/anthology/2019.nsurl-1.11
Proisl, Thomas, et al. "EmotiKLUE at IEST 2018: Topic-Informed Classification of Implicit Emotions." Proceedings of the 9th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis, Brüssel Ed. Balahur A, Mohammad SM, Hoste V, Klinger R, Brussels: Association for Computational Linguistics, 2018. 235–242.
URL: http://aclweb.org/anthology/W18-6234
Heinrich, Philipp, and Fabian Schäfer. "Extending Corpus-Based Discourse Analysis for Exploring Japanese Social Media." Proceedings of the 4th Asia Pacific Corpus Linguistics Conference (APCLC2018), Takamatsu Ed. Yukio Tono & Hitoshi Isahara, 2018. 135 - 140.
Heinrich, Philipp. "Stylistic Features in Corporate Disclosures and their Predictive Power." Proceedings of the 4th Asia Pacific Corpus Linguistics Conference (APCLC2018), Takamatsu Ed. Yukio Tono & Hitoshi Isahara, 2018. 129 - 134.
Kabashi, Besim, and Thomas Proisl. "Albanian Part-of-Speech Tagging: Gold Standard and Evaluation." Proceedings of the 11th Language Resources and Evaluation Conference, Miyazaki Ed. Calzolari N, Choukri K, Cieri C, Declerck T, Goggi S, Hasida K, Isahara H, Maegaard B, Mariani J, Mazo H, Moreno A, Odijk J, Piperidis S, Tokunaga T, Miyazaki: European Language Resources Association, 2018. 2593–2599.
URL: http://www.lrec-conf.org/proceedings/lrec2018/pdf/89.pdf
Heinrich, Philipp, et al. "A Transnational Analysis of News and Tweets about Nuclear Phase-Out in the Aftermath of the Fukushima Incident." Proceedings of the Workshop on Computational Impact Detection from Text Data, Miyazaki Ed. Andreas Witt, Jana Diesner, Georg Rehm, Paris: ELRA, 2018. 8 - 16.
Proisl, Thomas, et al. "Delta vs. N-Gram Tracing: Evaluating the Robustness of Authorship Attribution Methods." Proceedings of the 11th Language Resources and Evaluation Conference, Miyazaki Ed. Calzolari N, Choukri K, Cieri C, Declerck T, Goggi S, Hasida K, Isahara H, Maegaard B, Mariani J, Mazo H, Moreno A, Odijk J, Piperidis S, Tokunaga T, Miyazaki: European Language Resources Association, 2018. 3309–3314.
URL: http://www.lrec-conf.org/proceedings/lrec2018/pdf/835.pdf
Proisl, Thomas. "SoMeWeTa: A Part-of-Speech Tagger for German Social Media and Web Texts." Proceedings of the 11th Language Resources and Evaluation Conference, Miyazaki Ed. Calzolari N, Choukri K, Cieri C, Declerck T, Goggi S, Hasida K, Isahara H, Maegaard B, Mariani J, Mazo H, Moreno A, Odijk J, Piperidis S, Tokunaga T, Miyazaki: European Language Resources Association, 2018. 665–670.
URL: http://www.lrec-conf.org/proceedings/lrec2018/pdf/49.pdf
Evert, Stephanie, Nathan Dykes, and Joachim Peters. "A quantitative evaluation of keyword measures for corpus-based discourse analysis." 2018.
URL: http://www.stefan-evert.de/PUB/EvertEtc2018_CAD_slides.pdf
Peters, Joachim, and Nathan Dykes. "From keywords to discourse - towards a keyword operationalisation model in discourse linguistics." Proceedings of the Corpora and Discourse International Conference Lancaster, 2018.
Pfaffenberger, Fabian, Christoph Adrian, and Philipp Heinrich. "Political bots during the German federal election campaign 2017 on Twitter." Proceedings of the 7. European Communication Conference (ECC) der European Communication Research and Education Association (ECREA), Lugano 2018.
Evert, Stephanie, et al. "Combining Machine Learning and Semantic Features in the Classification of Corporate Disclosures." Proceedings of the Logic and Algorithms in Computational Linguistics 2017 (LACompLing2017), Stockholm Ed. Loukanova R, Liefke K, Stockholm: Stockholm University, 2017. 47 - 62.
URL: http://su.diva-portal.org/smash/get/diva2:1140018/FULLTEXT03.pdf
Proisl, Thomas, et al. "Translation Inference across Dictionaries via a Combination of Graph-based Methods and Co-occurrence Statistics." Proceedings of the Shared Task on Translation Inference Across Dictionaries, Galway Ed. McCrae J, Bond F, Buitelaar P, Cimiano P, Declerck T, Gracia J, Kernerman I, Ponsoda E, Ordan N, Piasecki M, CEUR, 2017. 94–102.
URL: http://ceur-ws.org/Vol-1899/TIAD17_paper_1.pdf
Evert, Stephanie, et al. "E-VIEW-Alation – a Large-Scale Evaluation Study of Association Measures for Collocation Identification." Proceedings of the eLex 2017, Leiden Ed. Iztok K, Carole T, Miloš J, Jelena K, Simon K, and Vít B, Brno: Lexical Computing, 2017. 531–549.
URL: https://elex.link/elex2017/wp-content/uploads/2017/09/paper32.pdf
Lapesa, Gabriella, and Stephanie Evert. "Large-scale evaluation of dependency-based DSMs: Are they worth the effort?" Proceedings of the Proceedings of the 15th Annual Meeting of the European Association for Computational Linguistics (EACL 2017): Volume 2, Short Papers Valencia, Spain, 2017. 394-400.
URL: http://www.linguistik.fau.de/dsmeval/
Evert, Stephanie, Sebastian Wankerl, and Elmar Nöth. "Reliable measures of syntactic and lexical complexity: The case of Iris Murdoch." Presented at Proceedings of the Corpus Linguistics 2017 Conference, Birmingham Birmingham, UK, 2017.
URL: http://purl.org/stefan.evert/PUB/EvertWankerlNoeth2017.pdf
Wankerl, Sebastian, Elmar Nöth, and Stephanie Evert. "An Analysis of Perplexity to Reveal the Effects of Alzheimer's Disease on Language." Proceedings of the ITG-Fachbericht 267: Speech Communication Paderborn, Germany, 2016. 254-259.
Kabashi, Besim, and Thomas Proisl. "A Proposal for a Part-of-Speech Tagset for the Albanian Language." Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Portorož Ed. Calzolari Nicoletta, Choukri Khalid, Declerck Thierry, Grobelnik Marko, Maegaard Bente, Mariani Joseph, Moreno Asuncion, Odijk Jan, Piperidis Stelios, Paris: European Language Resources Association (ELRA), 2016. 4305–4310.
URL: http://www.lrec-conf.org/proceedings/lrec2016/pdf/1066_Paper.pdf
Evert, Stephanie. "CogALex-V Shared Task: Mach5 – A traditional DSM approach to semantic relatedness." Proceedings of the Proceedings of the 5th Workshop on Cognitive Aspects of the Lexicon (CogALex-V) Osaka, Japan, 2016. 92-97.
URL: http://www.collocations.de/data/#mach5
Evert, Stephanie, et al. "„Delta“ in der stilometrischen Autorschaftsattribution." Präsentiert bei DHd 2016, Leipzig Leipzig: Nisaba, 2016.
URL: http://www.dhd2016.de/abstracts/sektionen-002.html
Evert, Stephanie, et al. "EmpiriST 2015: A Shared Task on the Automatic Linguistic Annotation of Computer-Mediated Communication and Web Corpora." Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016), Berlin Berlin, Germany, 2016. 44-56.
URL: https://sites.google.com/site/empirist2015/
Piperski, Aleksandr, and Anton Kukhto. "Intra-speaker stress variation in Russian: A corpus-driven study of Russian poetry." Proceedings of the 2016 International Conference on Computational Linguistics and Intellectual Technologies, Dialogue 2016 Rossiiskii Gosudarstvennyi Gumanitarnyi Universitet, 2016. 540-550.
URL: https://www.scopus.com/record/display.uri?eid=2-s2.0-85020440068&origin=inward
Proisl, Thomas, and Peter Uhrig. "SoMaJo: State-of-the-art tokenization for German web and social media texts." Proceedings of the 10th Web as Corpus Workshop (WAC-X), Berlin Ed. Cook P, Evert S, Schäfer R, Stemle E, Berlin: Association for Computational Linguistics (ACL), 2016. 57-62.
URL: http://aclweb.org/anthology/W16-26
Santus, Enrico, et al. "The CogALex-V Shared Task on the Corpus-Based Identification of Semantic Relations." Proceedings of the Proceedings of the 5th Workshop on Cognitive Aspects of the Lexicon (CogALex-V) Osaka, Japan, 2016. 69-79.
URL: https://sites.google.com/site/cogalex2016/home/shared-task
Plotnikova, Nataliia, et al. "KLUEless: Polarity Classification and Association." Proceedings of the Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015) Denver, Colorado, 2015. 619--625.
URL: http://www.aclweb.org/anthology/S15-2103
Plotnikova, Nataliia, et al. "SemantiKLUE: Semantic Textual Similarity with Maximum Weight Matching." Proceedings of the Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015) Denver, Colorado, 2015. 111--116.
URL: http://www.aclweb.org/anthology/S15-2020
Evert, Stephanie, and Antti Arppe. "Some theoretical and experimental observations on naïve discriminative learning." Proceedings of the Proceedings of the 6th Conference on Quantitative Investigations in Theoretical Linguistics (QITL-6) Tübingen, Germany, 2015.
Evert, Stephanie, et al. "Towards a better understanding of Burrows's Delta in literary authorship attribution." Proceedings of the Proceedings of the Fourth Workshop on Computational Linguistics for Literature Denver, CO, 2015. 79--88.
URL: http://www.aclweb.org/anthology/W15-0709
Evert, Stephanie, and Andrew Hardie. "Ziggurat: A new data model and indexing format for large annotated text corpora." Proceedings of the Proceedings of the 3rd Workshop on the Challenges in the Management of Large Corpora (CMLC-3) Lancaster, UK, 2015. 21--27.

Weitere Informationen finden Sie in CRIS.

Aktivitäten und Tagungen

Es wurden leider keine Aktivitäten gefunden.

Lehrstuhl für Korpus- und Computerlinguistik

Bismarckstr. 6
91054 Erlangen

Mehr ›

Korpus- und Computerlinguistik

Team Team

Leitung

Prof. Dr. Stephanie Evert

Wissenschaftliche Mitarbeiter

Andreas Blombach, M.A.

Dr.-Ing. Besim Kabashi, M.A.

Nathan Dykes, M.A.

Philipp Heinrich, M.Sc.

Sekretariat

Anke Lutz

Lehrveranstaltungen Lehrveranstaltungen

Forschungsschwerpunkte Forschungsschwerpunkte

Forschungsprojekte Forschungsprojekte

DFG-Projekt: Die Normalisierung rechtspopulistischer und neurechter Diskurse in Japan und Deutschland

Tracking the infodemic: Conspiracy theories in the corona crisis

Argumentrekonstruktion aus Politischen Debatten

Automatische Anonymisierung und Pseudonymisierung von Gerichtsurteilen