Blog

Das *umBlog – Wissenswertes aus der Welt der Daten, Tech-Trends, Termine und Einblicke in unsere unglaubliche Company.

Die "Panama Papers", neuer Stand: Datentools zu nutzen ist noch keine Data Science

Verfasst am 12.04.2016 von Axel Hoffmann

Ein Jahr, 400 Journalisten, 2.6 TB Daten – und keine Data Science? Ende letzter Woche haben wir die Berichterstattung zu den "Panama Papers" aus Data Science-Perspektive betrachtet. Dabei fragten wir (uns), was bei der Analyse und Auswertung dieser unglaublichen Datenmenge schneller und effektiver gemacht werden könnte, wenn man die aktuell verfügbaren Datentechnologien richtig nutzen würde, sofern noch nicht geschehen. – Neuer Kenntnisstand ist nun, dass diese Technologien teilweise zum Einsatz kamen. Folgen wir der Berichterstattung, stoßen sie aber an die Grenzen der Nutzung und des manuell Machbaren.

Panama Papers

Foto: Stock

Versuch eines Updates zur Infolage

Auf dem Newsportal Watson beschreibt eine Journalistin aus dem Investigativ-Team den Einsatz verwendeter Datentools. Im Interview benennt sie konkret die Software Nuix, die genutzt wurde, um "(...) die vielen verschiedenen Dateiformate zu strukturieren, also einen Index zu erstellen (...), um besonders schnelle Suchvorgänge ausführen zu können." Außerdem erläutert sie, dass dazu "viele Bild- und PDF-Dateien zuerst [per Texterkennung] in eine für den Computer lesbare Form" gebracht werden mussten, was sich über Monate hinzog. Dann erst konnte die Arbeit der Reporter beginnen.

Wie die Recherche aussah, beschreibt ein anderer beteiligter Journalist vom Rechercheteam des Norddeutschen Rundfunks im Interview mit dem Bayerischen Rundfunk (BR): "In der Zeit davor haben wir sehr sehr viel Dokumente einfach gelesen, PDF-Dokumente, Grafiken, E-Mail-Verkehre durchgelesen, um einfach festzustellen: Sind da, wo interessante Namen auftauchen, das überhaupt wirklich die Leute, von denen wir denken, dass sie es sind? (...) Dafür muss man das Puzzleteil für Puzzleteil zusammenlegen, um überhaupt erstmal ein Bild zu bekommen."

Nach Information der Kollegen von TechTarget wurden die "Panama Papers mit Graphdatenbank und Visualisierungssoftware enthüllt". Wie aus diesem Artikel hervorgeht, nutzten die Mitarbeiter des Recherchenetzwerks ICIJ die Graphdatenbank von Neo4j für die Analyse der Daten.

Soweit, so gut. Und so unklar, was genau wofür verwendet wurde. Nuix, "eine Palette von Software-Tools für digitale forensische Untersuchungen", diente offenbar der Indexierung und Verschlagwortung der bereitgestellten Dokumente per optischer Zeichenerkennung (Optical Character Recognition, OCR). "Dieser Schritt war eigenen Angaben zufolge wichtig", so ein weiterer Artikel, "damit die beteiligten Journalisten einen möglichst großen Teil der Daten über eine einfache Suchfunktion durchforsten konnten." Neo4j nutzte man offenbar für die Graphdatenbank. Was folgerichtig ist, denn das Tool eignet sich bestens zur Visualisierung von Beziehungen/Netzwerken von unterschiedlichen Datensätzen und lässt sich via User Interface auch von Nicht-Experten durchsuchen und befüllen.

Die Richtung stimmt, das Ergebnis kann man noch verbessern

Trotz der stückweise unklaren Infolage und trotz des sicherlich gezielten Einsatzes von Datentools, scheint es nach wie vor Raum bei der Auswertung zu geben. "Dieses Datenleck hätte vor zehn Jahren passieren können und niemand hätte etwas darüber geschrieben", wird Neo4j von TechTarget zitiert. Das stimmt, und insofern ist der Zeitpunkt passend. Sowohl für den Einsatz von Nuix als auch von Neo4j oder von weiteren Datentools. Dennoch scheint es, als blieben derzeit die aktuellen Möglichkeiten der Data Science ungenutzt.

Data Science könnte unter Zuhilfenahme von Machine Learning und Deep Learning weiterhin dabei helfen, die vorliegenden Daten automatisiert zu analysieren, um Muster und Zusammenhänge in den Daten zu finden, die durch per manuellem "Durchforsten" verborgen bleiben können. Ganz konkret könnten z.B. Algorithmen zur Named Entity Recognition (NER) verwendet werden, die darauf trainiert sind, einen Fließtext automatisiert auf Eigenamen von Personen, Orten, Organisationen oder auch Zeitangaben u.ä. zu durchsuchen. Wir von The unbelievable Machine Company haben einen solchen Algorithmus bereits weiterentwickelt, um zusätzlich auch automatisiert Beziehungen zwischen solchen Entitäten zu extrahieren. Auf ähnliche Weise könnte dies auch bei den "Panama Papers" geschehen. Damit bald auch über wirksame Erkenntnisse aus den Daten und über das große Gesamtbild geschrieben werden kann.

Social Media

Kontakt

The unbelievable Machine
Company GmbH
Grolmanstr. 40
D-10623 Berlin

+49-30-889 26 56-0 +49-30-889 26 56-11 info@unbelievable-machine.com

Kostenloses Whitepaper

Data Thinking:
Erfolgsrezept für den digitalen Wandel

Zum Whitepaper