Blog

Das *umBlog – Wissenswertes aus der Welt der Daten, Tech-Trends, Termine und Einblicke in unsere unglaubliche Company.

Data Lake oder Data Warehouse? – Interview mit Ingo Steins

Verfasst am 19.01.2018 von Axel Hoffmann

Data Lake oder Data Warehouse? Klare Antworten von Unbelievable Machine und Ingo Steins.

Ingo Steins (51) ist als Deputy Director Operations bei Unbelievable Machine in Berlin zuständig für den Bereich Applications. Vor zwei Jahren begann er als Teamlead Development, im Gepäck mehrere Jahre Erfahrung in der Software- und Datenentwicklung und in der Führung großer Teams. Heute betreut er derer drei, an unseren jeweiligen Standorten. Er ist Experte für das Thema Data Lakes, zu dem er uns hier Rede und Antwort stand.

Ingo, es heißt, der Data Lake sei eine bloße Neuauflage des Data Warehouses. Quasi „alter Wein in neuem See". Ansonsten seien sich die Systeme ziemlich ähnlich. Stimmt das? 

Ein schönes Bild mit dem See voller Wein (lacht) – aber auch ein komplett falsches. Data Lake und Data Warehouse haben eigentlich nur die Gemeinsamkeit, dass sie zur Datenspeicherung dienen. Ansonsten haben beide Systeme ganz grundlegende Unterschiede in den Anwendungen und Möglichkeiten.

Kannst du die Unterschiede kurz erläutern? Was genau ist ein Data Lake?

Der Data Lake ist ein Speichersystem oder Repository, das riesige Mengen von unstrukturierten Rohdaten versammelt. Wie ein See hat dieser Speicher viele Quellen und Zuströme...

...daher die Metapher?

Genau (lacht). Und die enorme Kapazität. Denn dieser See bietet die Möglichkeit, extrem viele und vielfältige Daten zu speichern und sie effektiv für Big Data Analytics, also für die Auswertung bereitzustellen.

Und ein Data Warehouse?

Das Data Warehouse ist ein zentrales Repository für die Unternehmensführung. Also ganz anders gelagert. Es fungiert vor allem als Komponente der Business Intelligence, speichert das Zahlenmaterial als Planungsgrundlagen zur Prozessoptimierung oder auch für die strategische Ausrichtung von Unternehmen. Und es unterstützt das Reporting im Geschäftsbetrieb. Dafür müssen die Daten aber alle strukturiert sein und das gleiche Format haben.

Das bedeutet, ein Data Warehouse ist gar nicht für große Datenanalysen gebaut?

So kann man das sagen, ja. Es stößt zumindest sehr schnell an sein strukturellen und kapazitären Grenzen.

Wo genau?

Aus meiner Sicht gleich an vier wichtigen Punkten. Erstens mal bei den heute sehr großen Datenmengen. Etwa im E-Commerce, wo jeder Kaufprozess einen Click-Stream mit Daten hinterlässt, die Rückschlüsse auf das Kaufverhalten und dessen Optimierung zulassen. Diese sind per se unstrukturiert und müssen schnell verarbeitet werden. Oder beim Streaming, wo Daten kontinuierlich und direkt einfließen.

Und zweitens?

Zweitens werden für vernünftige Analysen heute immer Daten aus anderen Quellen hinzugezogen, etwa aus Social Media oder Weblogs, von Sensoren oder aus dem Mobilfunk. Diese Daten haben natürlich ganz verschiedene Formate.

Wie sieht so eine Analyse aus?

Ein Beispiel: Kündigt sich in den Wetterdaten ein Unwetter mit Starkregen an, bedeutet das für einen Baumarktbetreiber, dass es clever ist, die Lagerbestände an Pumpen aufzustocken, weil die Nachfrage in Kürze sehr wahrscheinlich steigt.

Und dafür ist ein Data Warehouse nicht geeignet?

Genau. Für ein solches Nutzungsszenario braucht man Daten in unterschiedlichen Formaten, die sich kaum Data-Warehouse-tauglich vereinheitlichen lassen.

Was ist der dritte Grenzpunkt für ein Data Warehouse?

Dass es kostenintensiv ist. Große Anbieter wie SAP, Microsoft oder Oracle bieten Data-Warehouse-Modelle an. Für den Einsatz braucht man in der Regel relativ neue Hardware und Menschen mit entsprechender Expertise. Beides kostet.

Dann kommt noch hinzu, dass das Datenvolumen im Prozess enorm wächst. Ein Data Warehouse müsste also mitwachsen, um diese Daten vernünftig verarbeiten zu können, was für die Skalierung weitere massive Kosten nach sich zieht.

Und schließlich viertens?

Viertens haben viele Data Warehouses eine Performanceschwäche. Die Ladeprozesse sind komplex und brauchen Stunden, die Umsetzung von Änderungen ist träge und bis zu einer einfachen Analyse und Berichterstattung braucht es sehr viele Schritte. Um schnell reagieren zu können – am besten in Echtzeit –, müssen die Daten deutlich schneller zur Verfügung stehen.

Hat ein Data Lake auch seine Grenzen?

Kaum. Der Data Lake ist im Grunde grenzenlos. Er ist kein Produkt wie ein Data Warehouse, sondern ein Konzept, das individuell zusammengestellt wird und beliebig erweiterbar ist.

Dabei drehen sich einige Aspekte aus dem Prozess eine Data Warehouses um. So werden in einem Data Lake alle denk- und verfügbaren Daten gesammelt – unabhängig von Relevanz, Struktur und Bedarf –, wodurch an sich schon eine enorme unstrukturierte Sammlung entsteht.

Was braucht man für den Aufbau eines Data Lakes?

Eigentlich bloß eine geeignete Datenbasis, wie sie beispielsweise Hadoop relativ einfach ermöglicht.

Was ist daran einfach und wie sieht das aus?

In den meisten Fällen beruht ein Data Lake auf einem Hadoop-Cluster, das im Grunde wie eine große verteilte Festplatte funktioniert. Es kann beliebig viele Datenformate in sehr großen Mengen beliebig lang aufnehmen. Und weil es aus handelsüblicher Hardware besteht, ist sein Speicherplatz im Vergleich auch noch sehr günstig.

Also „Vorteil Data Lake"?

Genau. Der Data Lake kann enorme Datenmengen speichern, braucht selbst aber keine aufwändige Formatierung und Pflege. In diesem System sind Prozesse oder Verarbeitungsgeschwindigkeiten nicht eingeschränkt. Stattdessen eröffnet es sogar neue Möglichkeiten der Datennutzung und kann deshalb ganz generell bei der Digitalisierung eines Unternehmens unterstützen.

Kannst du das anhand eines Beispiels erläutern?

Klar. Einer unserer Kunden, ein großes Verkehrs- und Mobilitätsunternehmen, will Personenströme samt Fahrtdauern und Zugzeiten nachvollziehen. Dafür greift es auf Mobilfunkdaten zurück, die ein Anbieter regulär verkauft und die es unter anderen Umständen nicht hätte. Eben Daten aus unterschiedlichen Kontexten und Quellen. Auch hier dient ein Data Lake als gemeinsame Datenbasis und Voraussetzung für die Queranalyse.

2018 ruft der See.

Definitiv. Um „im Strom der Digitalisierung" mitzuschwimmen und zukunftsfähig zu sein, sollten Unternehmen einen Data Lake nutzen. Und wer bisher noch keinen nutzt, sollte jetzt zumindest die Möglichkeiten prüfen. Das System ist heute einfach ein wichtiger Produktionsfaktor. Es dient als enormer und kostengünstiger Datenspeicher und ist zugleich eine schnelle und flexible Daten-Management-Plattform.

Unternehmen, die in Echtzeit auf unterschiedliche Daten zugreifen und vernünftig verarbeiten wollen, um hochspezialisierte und komplexe Fragestellungen schnell beantworten zu lassen, finden im Data Lake die optimale Architektur...

...und mit dir den kompetenten Ansprechpartner.

Genau (lacht).

Danke für das sehr informative Gespräch.

Gerne.

Ingo Steins, *um Deputy Director Operations und Experte für Data Lakes Ingo Steins, Experte für Data Lakes


Mehr zum aktuellen Stand und den Möglichkeiten von Hadoop 
findest du auch in unserem Whitepaper – hier zum Download:

Whitepaper kostenlos herunterladen

 

Das könnte dich auch interessieren:
Data Lake: Basis für die Verarbeitung von Big Data
Virtual Data Warehousing: Datenverarbeitung noch effizienter
Nerd Stuff: REST in Peace – Unfallfreies Streaming dank Hystrix

Aktuelle Blogeinträge

Social Media

Kontakt

The unbelievable Machine
Company GmbH
Grolmanstr. 40
D-10623 Berlin

+49-30-889 26 56-0 +49-30-889 26 56-11 info@unbelievable-machine.com

Kostenloses Whitepaper

Data Thinking:
Erfolgsrezept für den digitalen Wandel

Zum Whitepaper