Sophie Burkhardt erhält BMBF-Förderung zum Aufbau einer Nachwuchsgruppe in der Informatik

Inhalt und Stil eines Texts sollen bei der Texterzeugung mit Künstlicher Intelligenz unabhängig voneinander kontrolliert werden / Bundesministerium für Bildung und Forschung stellt zwei Millionen Euro bereit

17.06.2020

Während es am Computer ohne Weiteres möglich ist, ein Foto in ein Bild im Stil von Picasso zu verwandeln, ist es bisher nicht möglich, einen beliebigen Text in den Stil beispielsweise von Franz Kafka umschreiben zu lassen. Das Problem bei Texten ist, dass Stil und Thema getrennt werden müssen. Diese Problematik greift ein neues Forschungsprojekt auf, für das Dr. Sophie Burkhardt vom Institut für Informatik der Johannes Gutenberg-Universität Mainz (JGU) eine Förderung des Bundesministeriums für Bildung und Forschung (BMBF) in Höhe von zwei Millionen Euro erhält. Ihr Projekt "Semantic Disentanglement: Unterscheidung von Stil und Thema in Textdaten" befasst sich mit der Entwicklung von Modellen und Software, um die automatische Analyse und Erzeugung von qualitativen Texten zu verbessern. Mögliche Anwendungen bieten Bereiche, in denen die Kommunikation zwischen Mensch und Maschine im Mittelpunkt steht wie etwa im Kundensupport oder in den sozialen Medien.

Die Künstliche Intelligenz (KI) hat im Bereich der Texterstellung erstaunliche Erfolge vorzuweisen. "Mittlerweile können mit KI Texte erzeugt werden, die kaum von menschengeschriebenen Texten zu unterscheiden sind", erklärt Dr. Sophie Burkhardt zum Stand der Technik. Allerdings ist es schwierig vorzugeben, was genau der Inhalt des Texts sein soll, der generiert wird, und den Stil des Texts getrennt davon zu kontrollieren. Durch ein "Disentanglement", also die Entwirrung von Stil und Thema in Textdaten, soll der Einfluss auf die erzeugten Texte und damit auch auf ihre Qualität verbessert werden. Eine Idealvorstellung wäre es nach Darstellung der Informatikerin zum Beispiel, einen Harry-Potter-Roman in den Stil von Shakespeare zu konvertieren. "Das ist jedoch noch in weiter Ferne."

Erste Schritte zur Themenanalyse von Texten erfolgreich

Erste Schritte, um Themen aus komplexen Texten zu analysieren, sind bereits erfolgreich, jedoch wird dabei der Textstil noch nicht beachtet. Auf dem Weg dahin, den Textstil miteinzubeziehen, könnte in einer Zwischenstufe zum Beispiel ein langer Artikel in einer Kurzform erstellt oder für soziale Medien zusammengefasst werden, ein wissenschaftlicher Artikel könnte in vereinfachter Sprache wiedergegeben oder für eine andere Zielgruppe aufbereitet werden. Erste Fortschritte zur Beeinflussung des Textstils betreffen vor allem die Tonalität, um also beispielsweise die positive Beurteilung eines Produkts in eine negative Bewertung umzuformulieren. "Andere Aspekte des Stils, die nicht so offensichtlich sind, sind weitaus schwieriger zu kontrollieren", so Burkhardt. "Ironie und Sarkasmus sind ein enormes Problem, zumal das System den Wissensstand verstehen müsste."

Das neue BMBF-Projekt soll die Forschung zu Sprachmodellen und Themenmodellen zusammenführen, um ein kombiniertes Modell zu entwickeln, das sowohl den Inhalt als auch den Textstil darstellen kann. Dabei sollen moderne tiefe neuronale Netze zum Einsatz kommen, wobei zu erforschen ist, wie diese neuronalen Netze mit diskreten Daten wie Texten umgehen können. Zunächst werden große Datensätze, also große Textkorpora benötigt, um die Systeme zu trainieren.

Anwendung für Dialogsysteme im Haushalt, im Kundensupport oder in Fahrzeugen denkbar

Dr. Sophie Burkhardt erwartet, dass die Erzeugung von qualitativ hochwertigen Texten für viele Branchen und Anwendungen interessant sein könnte. Zum Beispiel könnten die neu entwickelten Methoden in Kombination mit Spracherkennung für Dialogsysteme im Haushalt, im Kundensupport oder in Fahrassistenzsystemen zum Einsatz kommen. Langfristig könnte dies auch zur Verbesserung der barrierefreien Mediennutzung dienen, wenn Texte generiert werden können, die Sachverhalte für Blinde beschreiben.

Das Bundesministerium für Bildung und Forschung unterstützt das Projekt im Rahmen der Förderung von Nachwuchswissenschaftlerinnen im Bereich der Künstlichen Intelligenz und ermöglicht damit den Aufbau einer interdisziplinären Nachwuchsgruppe, die von Dr. Sophie Burkhardt geleitet wird. Die Fördersumme in Höhe von zwei Millionen Euro wird für einen Zeitraum von vier Jahren gewährt.

Sophie Burkhardt hat an der Johannes Gutenberg-Universität Mainz Philosophie und Informatik studiert und anschließend promoviert. Für ihre Dissertation mit dem Titel "Online Multi-label Text Classification using Topic Models" wurde sie mit dem Dissertationspreis des Fachbereichs Physik, Mathematik und Informatik der JGU ausgezeichnet. Während ihrer Promotion erhielt sie ein Stipendium der Firma PRIME Research aus Mainz. Sie publizierte insgesamt zehn Artikel als Erstautorin zu den Themen Topic Models und Textklassifikation. Seit Januar 2019 ist Burkhardt als Postdoktorandin in der Arbeitsgruppe "Data Mining" von Prof. Dr. Stefan Kramer am Institut für Informatik der JGU tätig.