ºÚÁÏ´«ËÍÃÅ

¶Ù²¹³Ù±ð²Ô±ç³Ü²¹±ô¾±³Ùä³Ù in User-Generated Content (DQUGC)

Textuelle nutzergenerierte Inhalte (User-Generated Content, UGC) wie bspw. Kundenrezensionen, Wiki-Beiträge oder Social-Media-Posts bilden heute eine zentrale Grundlage für datengetriebene Anwendungen. Spätestens mit dem breiten Einsatz generativer KI-Systeme wie ChatGPT und anderer Large Language Models ist deutlich geworden, wie stark die Leistungsfähigkeit moderner KI von der Qualität textueller Daten abhängt. Unzureichende ¶Ù²¹³Ù±ð²Ô±ç³Ü²¹±ô¾±³Ùä³Ù kann dabei nicht nur die Güte von Analyseergebnissen beeinträchtigen, sondern auch zu Verzerrungen, Instabilität und schwer nachvollziehbaren Entscheidungen führen.

Das von der Deutschen Forschungsgemeinschaft (DFG) geförderte Projekt DQUGC ist ein Folgeprojekt des Vorhabens DQNGI und wird im Rahmen eines DFG-Fortsetzungsantrags durchgeführt. Im Vorgängerprojekt wurde mit einer Veröffentlichung in ein zentraler konzeptioneller Beitrag zur Messung von ¶Ù²¹³Ù±ð²Ô±ç³Ü²¹±ô¾±³Ùä³Ù geleistet: Erstmals wurde gezeigt, wie Ereignisse (Events) als Ursachen von ¶Ù²¹³Ù±ð²Ô±ç³Ü²¹±ô¾±³Ùä³Ùsproblemen explizit modelliert und über charakteristische Muster in den Daten identifiziert werden können. Am Beispiel von Duplikaten wurde ein ereignisgetriebener Ansatz entwickelt, der ¶Ù²¹³Ù±ð²Ô±ç³Ü²¹±ô¾±³Ùä³Ù nicht rein syntaktisch, sondern über event-spezifische Datenmuster probabilistisch messbar macht.

DQUGC greift diesen Event-basierten Ansatz gezielt auf und entwickelt ihn weiter. Ziel des Projekts ist es, das Konzept der ereignisgetriebenen ¶Ù²¹³Ù±ð²Ô±ç³Ü²¹±ô¾±³Ùä³Ùsmessung auf weitere Arten textueller Daten sowie auf zusätzliche ¶Ù²¹³Ù±ð²Ô±ç³Ü²¹±ô¾±³Ùä³Ùsdimensionen jenseits von Duplikaten auszurollen. DQUGC zielt dabei verstärkt auf unstrukturierte, textuelle Inhalte, wie sie in UGC und Trainingsdaten moderner KI-Systeme vorliegen.

Ein zentraler Schwerpunkt liegt darauf zu untersuchen, wie sich Event-Bezüge und daraus abgeleitete ¶Ù²¹³Ù±ð²Ô±ç³Ü²¹±ô¾±³Ùä³Ùsinformationen systematisch in maschinelle Lernverfahren integrieren lassen. Dies umfasst unter anderem die Nutzung von Qualitätsinformationen zur Gewichtung, Auswahl oder Vorverarbeitung von Trainingsdaten sowie zur Interpretation von Modellergebnissen. Damit adressiert das Projekt grundlegende Herausforderungen aktueller GenAI-Systeme.

Die in DQUGC entwickelten Ansätze sind sowohl für die wissenschaftliche Forschung im Bereich ¶Ù²¹³Ù±ð²Ô±ç³Ü²¹±ô¾±³Ùä³Ù, Textanalyse und maschinelles Lernen relevant als auch für Praxispartner interessant, die große Mengen textueller Daten oder KI-basierte Systeme einsetzen. Gleichzeitig bietet das Projekt Studierenden die Möglichkeit, sich im Rahmen von Abschlussarbeiten und Forschungsprojekten mit aktuellen Fragestellungen an der Schnittstelle von ¶Ù²¹³Ù±ð²Ô±ç³Ü²¹±ô¾±³Ùä³Ù, Events und moderner KI auseinanderzusetzen.

Die Universität Ulm verfolgt in Kooperation mit der Universität Regensburg dabei folgende Forschungsfragen:

  1. Wie lässt sich ¶Ù²¹³Ù±ð²Ô±ç³Ü²¹±ô¾±³Ùä³Ù in textuellen nutzergenerierten Inhalten ereignisgetrieben automatisiert messen und verbessern?
  2. Wie lassen sich ¶Ù²¹³Ù±ð²Ô±ç³Ü²¹±ô¾±³Ùä³Ùsinformationen methodisch fundiert in maschinelle Lernverfahren und GenAI-Modelle integrieren?

Kooperationspartner: Universität Regensburg

¹óö°ù»å±ð°ù²µ±ð²ú±ð°ù: Deutsche Forschungsgemeinschaft (DFG)

Projektzeitraum: bis 2027