Mit Linked Open Data Statistiken interpretieren

Eine Software, die mithilfe sogenannter Linked Open Data, also riesige Sammlungen semantisch vernetzter Daten im Internet, Wechselbeziehungen und Regeln findet und Hypothesen zur Interpretation von Statistiken entwickelt, haben Informatiker der TU Darmstadt entwickelt. Statistiken wie z. B. den Korruptionsindex von Transparency International zu interpretieren ist trotz Verfahren, die Erklärungen von Statistiken finden, nicht immer einfach. Diese Verfahren können nur in der Statistik enthaltene Daten nutzen, es werden keine Hintergrundinformationen hinzugezogen. Dadurch entstand die Idee, Verfahren des Data-Mining auf das Semantic Web anzuwenden, um weitere Hintergrundinformationen zu erhalten und so mehr über Statistiken zu erfahren.

Software „Explain-a-LOD“ erstellt Hypothesen zu Statistiken
Die Software „Explain-a-LOD“ erstellt Hypothesen zu beliebigen Statistiken, indem sie Informationen aus Linked Open Data (LOD) zieht. Zunächst werden hierfür die zu interpretierenden statistischen Daten bei Explain-a-LOD eingegeben. Die Software sucht automatisch aus den Linked Open Data nach korrespondierenden Datensätzen, die den statistischen Ausgangsdaten hinzugefügt werden. Wird z. B. im Korruptionsindex das Land „Deutschland“ aufgeführt, werden aus Linked Open Data Datensätze gesucht, die Informationen zu Deutschland enthalten. Aus denen werden zusätzliche Merkmale generiert, wie die Bevölkerungszahl, Mitgliedschaften in der EU oder die Anzahl von Firmensitzen. Damit der Umfang der angereicherten statistischen Daten nicht zu groß wird, entfernt Explain-a-LOD automatisch Merkmale, die vermutlich keine brauchbaren Hypothesen liefern.

Erstellung von Hypothesen mit Explain-a-LOD
Der zweite Schritt nach der Datenaufbereitung ist die automatische Erstellung von Hypothesen aus den angereicherten Daten. Dabei nutzt Explain-a-LOD einerseits einfach Korrelationsanalysen und andererseits Regellernverfahren, um komplexere Erklärungsansätze zu finden, die mehr als ein Merkmal beinhalten. Zum Schluss werden dem Nutzer die gefundenen Hypothesen präsentiert, z. B. in Sätzen wie „Ein Land des Typs OECD-Mitglied hat einen niedrigen Korruptionswahrnehmungsindex, wenn eine positive Korrelation zwischen dem Merkmal OECD-Mitgliedschaft und dem Zielattribut Korruptionswahrnehmungsindex vorliegt“. In der ursprünglichen Statistik müssen keine Daten über die OECD-Mitgliedschaft vorhanden sein, da Explain-a-LOD dieses Hintergrundwissen automatisch hinzuzieht.

Hypothesen überraschen und sind oft nützlich
Der Ansatz von Explain-a-LOD wurde an verschiedenen Statistiken, wie der Mercer-Studie zur Lebensqualität und dem Korruptionswahrnehmungsindex von Transparency International ausführlich getestet. Das Ergebnis ist eine Mischung aus naheliegenden und überraschenden Hypothesen, etwa dass Städte, in denen es im Mai nicht wärmer als 21° C wird, eine hohe Lebensqualität haben. Dieser Eindruck wurde durch eine Evaluierung der Ergebnisse durch Probanden bestätigt. Diese empfanden die Hypothesen größtenteils als überraschend und als nicht-trivial sowie vielfach auch als nützlich. Allerdings hatten die Probanden größere Zweifel bei der Vertrauenswürdigkeit der Hypothesen, was auch daran liegt, dass die Qualität der Daten in der Linked Open Data Cloud nicht immer zufriedenstellend ist.

Quelle: PM TU Darmstadt