5. VALiD Konsortialmeeting

15.03.2017
Štefan Emrich - 22.03.2017

Vorige Woche war die drahtwarenhandlung beim fünften VALiD-Konsortialtreffen. Das Forschungsprojekt VALiD beschäftigt sich mit der Frage, wie JournalistInnen unterstützt werden können um aus komplexen Datensätzen leichter und mehr Information holen zu können und so schneller zu besseren Storys gelangen. Für diese Aufgabe hat sich das Forschungsteam im Projekt den Fokus auf die Betrachtung von Netzwerkdatensätze und große Textsammlungen im Zeitverlauf gesetzt. Die Hauptthemen bei diesem Konsortialtreffen, zu welchem die FH Joanneum am Donnerstag nach Graz lud, drehten sich vor allem um Machine-Learning Algorithmen im Bereich des Natural Language Processing (NLP).

Einerseits ging es darum, wie die Textdatenbank im Projekt (umfasst alle Reden des Österreichischen Parlaments der letzten Jahrzehnte) besser analysiert werden können. Konkret geht es um eine Sentiment-Analyse, also der Klassifikation von Text entsprechend der Stimmung (un- / höflich, ironisch, …). Diese Analyseform stellt für sich schon eine eigene Wissenschaft dar. Zusätzlich hat die entsprechende Forschungscommunity ihren Schwerpunkt auf der (relativ einfachen) englischen Sprache. Für die deutsche Sprache, welche noch dazu eine höhere Komplexität aufweist, existieren daher erst deutlich weniger ausgereifte Ansätze und Methoden.

Andererseits war das Thema, inwiefern die verwendeten Algorithmen und Trainingsdaten für erstere, einem Gender- bzw. Diversity-Bias unterliegen. Obwohl dieses Thema inzwischen zwar teilweise von der Forschungscommunity wahrgenommen wurde, ist das Bewusstsein um die Implikationen leider noch deutlich zu gering. Hier noch eine Buchempfehlung zu diesem zunehemend brisantem Thema.

Auch wenn bei diesem Treffen des gesamten Projektteams keine Details und also präzisen Lösungsansätze ausgearbeitet wurden, war die Diskussion doch bereichernd. Wir freuen uns darauf, diese Ideen jetz umzusetzen und zu testen. Und die ersten Ergebnissen haben uns hier weiter bestärkt. Die kommenden Wochen und Monate werden zeigen wie belastbar unsere Sentimentanalyse ist und wie wir sie für Praxisanwendungen eingesetzen werden können.