Blog

Die "Panama Papers": Wie Data Science jetzt helfen kann, die Spitzbuben wirksam zu stellen

Verfasst am 07.04.2016 von Axel Hoffmann

Die "Panama Papers" sind das größte Datenleak der Mediengeschichte. Ihre Veröffentlichung bringt eine unglaubliche Zahl von Korruptions-, Steuer- und anderen Delikten bis zum Bruch von UN-Sanktionen zutage. Die Arbeit des Recherchenetzwerks wird deshalb als Glanzleistung des Enthüllungsjournalismus gefeiert. Zu Recht. Doch wurden möglicherweise noch nicht alle Möglichkeiten genutzt, in kürzerer Zeit mehr verborgene Zusammenhänge zu finden. Die Sternstunde von Datenjournalismus und Data Science steht also unter Umständen erst noch aus. Klar ist: Jetzt ist die schnelle und möglichst lückenlose Aufklärung gefragt. Data Science-Experte Dr. Christian Nietner erläutert, wie effektiver recherchiert und analysiert werden könnte, um bisher unerkannte Erkenntnisse aus den Daten zu gewinnen. Es eilt.

TUM PM68 Panama1

Quelle: SZ-Video (Screenshot)

Am Sonntag, 3. April, um 20 Uhr MESZ ist ein Offshore-Leak von historischem Ausmaß aufgesprengt: die "Panama Papers". Es umfasst über 2,6 Terabyte an Daten oder umgerechnet 11,5 Millionen Dokumente (E-Mails, Urkunden und Kontoauszüge) einer panamaischen Anwaltskanzlei. Darin finden sich u.a. die Namen von 140 Politikern, darunter ehemalige und amtierende Staats- und Regierungschefs. Auch zahlreiche Transparenz-verpflichtete Sportfunktionäre sind von der Veröffentlichung betroffen. Zudem enthalten die Daten die Namen von Drogenschmugglern, Terroristen sowie von Firmen, die auf Sanktionslisten stehen. Und von Lionel Messi.

Die brisanten Unterlagen wurden der Süddeutschen Zeitung zugespielt, die gemeinsam mit einem Netzwerk von 400 Journalisten aus über 100 Medienorganisationen und 80 verschiedenen Nationen mehr als ein Jahr recherchiert sowie die Daten analysiert und ausgewertet hat. Die Berichterstattung dazu ist umfangreich und es gibt bereits hervorragende Zusammenfassungen. Nun ist davon auszugehen, dass die weiteren Rechercheergebnisse, wie bei den Snowden-Enthüllungen, sukzessive in den nächsten Wochen veröffentlicht werden.

Ein Data Science-Projekt par excellence!

Die "Panama Papers" sind ohne Frage eine beispiellose Medienleistung. Darüber hinaus könnten sie ein exzellentes Beispiel für wirksam angewandte Data Science sein.

Zur Einordnung: Die Datenlage und -auswertung tangieren nahezu alle Bereiche des maschinellen Lernens und der automatisierten Datenverarbeitung. Ziel des Vorhabens ist das vollständige Aufdecken verborgener Strukturen und Zusammenhänge. Zusammengetragen aus einer Vielzahl unterschiedlichster Datenquellen und -strukturen über einen relativ langen Zeitraum.

Die für Big Data charakteristischen drei V's – Volume, Variety und Velocity – sind deutlich vorhanden.

[Volume] Die "Panama Papers" umfassen nach aktueller Faktenlage

4.804.618 E-Mails

3.047.306 Datenbankformate

2.154.264 PDF-Dateien

1.117.026 Bilder

320.166 Text-Dokumente

2.242 sonstige Dokumente



mit jeweils einem Umfang von ein paar hundert Kilobyte bis ein paar Megabyte Größe pro Datei. Das Mengenkriterium ist also mühelos erfüllt.

[Variety] Die genannten Dokumente kommen zwar "aus einer Quelle", decken aber eine Bandbreite ganz unterschiedlicher Datenstrukturen ab: von strukturierten Daten aus internen Datenbanken über Bilddaten aus Fotos und PDFs bis zu unstrukturierten Freitextdaten. Außerdem ist für die Analyse der Daten sehr wahrscheinlich auch eine Verknüpfung und Validierung mit externen Datenquellen wie z.B. Handelsregister, Mitgliederlisten, Firmenstrukturen, Aktienhandel etc. erforderlich. Das Vielfaltkriterium ist also ebenfalls erfüllt.

[Velocity] All diese Daten liegen dem Recherchenetzwerk vor und müssen nach Möglichkeit zeitnah ausgewertet werden. Um zu verhindern, dass sich belastete Personen oder Organisationen aus der Verantwortung ziehen können, oder auch um falsch Beschuldigte zu entlasten. Somit ist auch das Kriterium der hohen Verarbeitungsgeschwindigkeit von Daten erfüllt. Oder zumindest tangiert.

Jetzt kommt es darauf an, das Momentum optimal zu nutzen!

Dem Video der Süddeutschen Zeitung ist zu entnehmen, dass die bisherige Auswertung der Dokumente vorwiegend in manueller Suche und Analyse durch mindestens 350 Journalisten erbracht wurde. Aus Data Science-Sicht besteht hier ein hohes Optimierungspotenzial bei der Automatisierung und Qualität der Auswertung. Denn die manuelle Vorgehensweise ist nicht schnell und letztlich nicht wirksam genug. Sie verschenkt ihre Möglichkeiten.

Erleichtern und beschleunigen Sie die Recherche!

Anstatt jeden Ordner einzeln zu durchsuchen, wie dies nach eigener Aussage bisher offenbar getan wurde, empfiehlt sich z.B. der Einsatz einer hochgradig skalierbaren und konfigurierbaren Volltextsuchmaschine, die sowohl strukturierte als auch unstrukturierte Textdaten in einem gemeinsamen Datenpool konsolidieren kann. Die automatisierte Auswertung von Bilddaten kann mittels tiefer neuronaler Netze erfolgen, wahlweise in Kombination mit Machine Learning-Algorithmen für die Verarbeitung natürlicher Sprache. Die so gewonnenen Daten können anschließend dem Datenpool hinzugefügt werden. Statt vieler einzelner Dokumente, die über hunderte Ordner verteilt sind, erhält man auf diese Weise einen einzigen, effizient durchsuchbaren Datenpool aller Dokumente.

Erzielen Sie bessere Erkenntnisse und erkennen Sie mehr Zusammenhänge!

Ein wesentlicher Teil der Auswertung besteht gar nicht in der Konsolidierung der Daten, sondern im Aufdecken und Validieren von unbekannten und eventuell auch nicht offensichtlichen Mustern und Zusammenhängen in den Daten. Gerade hier leistet die Data Science einen enormen Mehrwert. Unter Zuhilfenahme von Algorithmen zur Mustererkennung können automatisiert z.B. semantische, temporale, geografische und thematische Zusammenhänge in Texten, und Bildern erkannt und sichtbar gemacht werden. Im Fall der "Panama Papers" ist außerdem der Einsatz von Graphdatenbanken und Algorithmen zur Netzwerkanalyse sehr zu empfehlen. Denn mit ihrer Hilfe können selbst verborgene Netzwerke und Beziehungen zwischen Personen, Organisationen und Instituten automatisiert erkannt und visualisiert werden.

Durch die "Panama Papers" kommt Licht ins Schattenreich der Briefkastenfirmen, der Korruption und organisierten Kriminalität. Es kommen weltweit Ermittlungen in Gang – und diese sollen zu bestmöglich wirksamen Ergebnissen führen. Sollten die herausragenden Möglichkeiten der Data Science dazu nicht (richtig) genutzt worden sein, wäre das fahrlässig. Die Mittel sind da, die Brisanz ist offensichtlich und die Zeit drängt.

###

Dr. Christian Nietner ist Data Scientist bei The unbelievable Machine Company (*um). Er ist Experte für die Implementierung von Machine Learning-Algorithmen und die Analyse von Big Data. Zuvor hat er sich als Post-Doc an der Technischen Universität Berlin (nach der Promotion in theoretischer Quantenphysik) mit der mathematischen und algorithmischen Analyse physikalischer Phänomene, computergestützter Datenverarbeitung und Numerik befasst.

sidebar-default.png

Social Media

Kontakt

The unbelievable Machine
Company GmbH
Grolmanstr. 40
D-10623 Berlin

+49-30-889 26 56-0 +49-30-889 26 56-11 info@unbelievable-machine.com

Kostenloses Whitepaper

Data Thinking:
Erfolgsrezept für den digitalen Wandel

Zum Whitepaper