Übersicht aus Daten gewinnen: Unstrukturierte Daten visualisieren

Stannie Holt14. Juli 2016

Der amerikanische Präsidentschaftswahlkampf ist in vollem Schwung und die Kandidaten und Sprecher beschuldigen die Medien wechselseitig der Voreingenommenheit. Ein guter Grund, sich einmal mehr mit der Analyse von Texten und den Möglichkeiten, unstrukturierte Inhalte zu visualisieren, zu beschäftigen. (Wir wollen ja nicht angeben, aber TechCrunch meint, dass wir einen interessanten Ansatz zur Messung des Tenors der Berichterstattung über die Kandidaten bieten…)

Schauen wir uns doch einmal genauer an, welche Erkenntnisse wir aus den unstrukturierten Daten zur anstehenden Wahl gewinnen und sinnvoll visualisieren konnten.

Unstrukturierte Daten visualisieren – und Action!

Wir waren fleißig und haben die vollständige Berichterstattung zur Präsidentschaftswahl 2016 ins Bild gesetzt. Rechtzeitig zur ersten Wahlversammlung in Iowa hat OpenText seinen Election Tracker ‘16 vorgestellt. Mit diesem Online-Tool kann die Berichterstattung zu allen Kandidaten beobachtet, verglichen und analysiert werden. Der Election Tracker basiert auf dem OpenText Release 16 (Content Suite und Analytics Suite); das Tool durchsucht und liest Hunderte große Online-Medien in der ganzen Welt. Diese Daten werden tagesaktuell hinsichtlich Stimmungen analysiert; weitere Informationen werden herausgezogen, beispielsweise zu Personen, Orten und Themen. Dann werden die Inhalte in visuelle Zusammenfassungen „übersetzt“ und in die Wahl-App eingebettet, wo sie über interaktive Dashboards und Reports verfügbar sind.

Diese Art von Content-Analyse enthüllt wesentlich mehr, als traditionelle Datenerhebungen. Sie bietet ganzheitliche Einsichten zum jeweiligen Ansatz der Kandidaten und ermittelt auch, ob über deren Kampagnenbotschaften berichtet wird. Sicher, es gehört zum Handwerk von Politikern, die tägliche Medienberichterstattung auszuwerten. Doch OpenText Release 16 leistet, was der Mensch unmöglich schaffen kann: eine Milliarde Worte pro Tag zu lesen, zu analysieren, zu verarbeiten und zu visualisieren.

9 Milliarden Tweets knacken

Während wir der Sprache nachspüren, hat Jack Grieve, forensischer Sprachwissenschaftler an der Universität Birmingham in Großbritannien, einen Weg entdeckt, um aufzuzeigen, wie neue Slang-Ausdrücke in unsere Sprache einfließen: Twitter.

An interactive map tracks the rise over time of new words such as "unbothered." Image courtesy of Quartz.

Diese interaktive Karte verfolgt das Auftauchen und den Gebrauch neuer Wörter über Twitter. (Bildquelle: mit freundlicher Erlaubnis von Quarz)

Grieve studierte im Zeitraum 2013/2014 die Tweets von 7 Millionen Nutzern in ganz Amerika, die fast 9 Milliarden Wörter enthielten (gesammelt von Diansheng Guo, Professor für Geographie an der Universität von South Carolina). Nach Ausschluss bekannter und langweiliger Wörter aus dem Lexikon (er wollte nur „neue“ Wörter“ finden), sortierte Grieve die verbleibenden Worte nach Ländern, filterte offensichtliche Fehler und seltene Sonderfälle heraus, und hielt Ausschau nach den Ausdrücken mit der wöchentlich höchsten Popularitätsrate.

Zu den beliebten Neulingen zählte „baeless“ (für immer Single bleiben), „famo“ (Familie und Freunde), „TWF“ (That Feeling When –„das Gefühl wenn…“ Ihnen zum Beispiel ein viel jüngerer Freund das Wort Verdruss erklären muss, ist das ein Verdruss) und „rekt“ (die Abkürzung für „wrecked“ (vernichtet) oder „destroyed“ (zerstört), aber nicht „rectitude“ (Rechtschaffenheit).

Wie er im Online-Magazin Quartz berichtete, fand Grieve heraus, dass einige neue Wörter durch Social-Media-Influencer populär gemacht werden oder sich – wie „faved“ („einen Tweet favorisieren“) und „amirite“ (ein absichtlicher Schreibfehler von „Am I right?“, mit dem die Zustimmung des Publikums zu einem bestimmten Standpunkt auf den Arm genommen wird) aus dem Kontext des Internets entwickeln.

Neben diesen sprachlichen Feinheiten eröffnet die Auswertung von Grieve auch generelle Einsichten in Big Data (immerhin 9 Milliarden Worte auf Twitter) und die Fähigkeit von Social Media, tatsächlich verwendete Sprache in Echtzeit zu erfassen. „Wenn es um Alltagssprache geht, ist Twitter näher dran, als ein Interview in den Nachrichten oder ein Vortrag an der Universität“, erklärt Grieve in Quartz.

Virale Verbreitung

Unstrukturierte Daten machen auch bei schwerwiegenderen Problemen einen guten Job. So können diese Daten in Form von Nachrichten Auskunft zur Ausbreitung ansteckender Krankheiten wie dem Zika-Virus geben.

Die Website HealthMap.org und deren Mobil-App wurden von Medizinwissenschaftlern und Software-Entwicklern am Bostoner Kinderkrankenhaus entwickelt. Sie verwenden „informelle Online-Quellen“, um die Ausbreitung von auftauchenden Krankheiten wie Influenza, Denguefieber und Zika zu verfolgen. Der Tracker zapft automatisch einen breiten Pool an Datenquellen in neun Sprachen (inklusive Chinesisch und Spanisch) an, darunter Nachrichten, Augenzeugenberichte, offizielle Reports und Expertendiskussionen zu gefährlichen ansteckenden Krankheiten.

A live, interactive tracker shows outbreaks of the Zika virus based on news stories, patient reports, and other unstructured data (Courtesy of HealthMap.org)

Ein interaktiver Echtzeit-Tracker zeigt Ausbrüche des Zika-Virus basierend auf Nachrichten-Storys, Patientenberichten und anderen unstrukturierten Daten (Bildquelle: mit freundlicher Erlaubnis von HealthMap.org)

Das Auswerten unstrukturierter Daten unterscheidet HealthMap.org von anderen Trackern für Infektionskrankheiten wie der amerikanischen Bundeszentrale für die Überwachung von Krankheiten (Center for Disease Control) und dem wöchentlichen FluView-Vorsorge-Report der US-Behörden.

Der FluView-Report des CDC enthält ein enormes Datenspektrum vom Alter der Patienten, betroffenen Regionen und neuen Grippeerregern bis hin zum Vergleich mit früheren Grippewellen und mehr

Das einzige Problem dabei: Das CDC erstellt seine Berichte auf Basis von Influenzafällen, die von Krankenhäusern und öffentlichen Kliniken in den USA gemeldet werden. Deshalb kommen die Daten mit Verzögerung und unvollständig; sie enthalten beispielsweise keine Grippekranken, die nicht bei einem Arzt waren, oder Fälle, die dem CDC nicht gemeldet wurden – das begrenzt den Vorhersagewert.

Die HealthMap dagegen greift auf eine sehr viel breitere Palette an Datenquellen zu. Ihre Berichte zeigen also ein vollständigeres Bild von Krankheitsausbrüchen, das nahezu in Echtzeit übertragen wird und Ärzten, Gesundheitsbeauftragten der öffentlichen Hand oder verängstigten Reisenden bessere Einsichten zur Verbreitung des beispielsweise angesprochenen Zika-Virus liefert. Eine Art der Datenvisualisierung, wie Sie Ihr Arzt verschreiben würde.

Dieser Artikel wurde aus dem Englischen übersetzt.

Stannie Holt14. Juli 2016