Blog

Das *umBlog – Wissenswertes aus der Welt der Daten, Tech-Trends, Termine und Einblicke in unsere unglaubliche Company.

Data Cleansing: KI braucht saubere Daten

Verfasst am 11.06.2019 von Michaela Fränzer

Data Cleansing: Künstliche Intelligenz braucht saubere Daten

Aufräumen? Putzen? Saubermachen? Auch für Unternehmen zählt das nicht unbedingt zu den beliebtesten Beschäftigungen. Oft belassen sie gesammelte Daten deshalb im ursprünglichen "dreckigen" Zustand. Ohne es zu wissen, verlieren sie dadurch jedes Jahr Einnahmen in Milliardenhöhe. Angesichts der aktuellen Entwicklung wird Datensauberkeit mehr denn je zum erfolgskritischen Faktor.

Ohne Daten kann keine KI betrieben werden

Künstliche Intelligenz (KI) ist die Zukunftstechnologie der Stunde. Große wie kleinere Unternehmen nutzen algorithmische, maschinell lerngestützte Werkzeuge inzwischen flächendeckend für unterschiedlichste Anwendungsfälle, von der Analytik über die Cybersecurity bis zum Kundenservice – und weit darüber hinaus.

Angesichts dieser Präsenz und Bedeutung ist es elementar, den Blick auf die wichtigste Grundlage zu richten: die Daten, Herz und Seele der KI. Denn ohne die richtigen Daten nützt der beste Algorithmus nichts. Unternehmen und Organisationen stehen sie in rauen Mengen zur Verfügung. Kunden- und Finanzdaten, Sensoren- und Maschinendaten, historische Unternehmensdaten und Daten aus zahlreichen Quellen mehr. Das benötigte Wissen, um bessere Entscheidungen zu treffen, ist verfügbar – wird aber oft nicht genutzt.

Dass diese Daten allerdings oft nicht einfach nutzbar sind, liegt an zwei wesentlichen Faktoren. Nummer 1: Unterschiedliche Datenformate führen zu stark heterogenen Datensätzen. Eine große Herausforderung, wie es scheint, doch die Lösung ist relativ simpel. Denn die Daten lassen sich in einem Data Lake zusammenführen, konsolidieren und in ein einheitliches Format bringen, um sie weiterzuverarbeiten. 

Daten sind für die KI oft nicht sauber genug

Bedeutsamer ist Faktor Nummer 2: die so genannte Verschmutzung der Daten. Sie umfasst zum Beispiel fehlende Informationen, die Inkonsistenz der Daten oder schlichtweg Fehler. Werden die Daten nicht bereinigt, bevor sie von einer KI verwendet werden, kann das schwerwiegenden Folgen haben.

So zeigen Analysen von Accenture, dass ganze 79 Prozent der Unternehmen kritische Entscheidungen auf Daten stützen, ohne in deren Verifizierung zu investieren und damit immense Verluste riskieren. Dadurch entstehen weltweit jedes Jahr 15 Milliarden Dollar Verluste, wie auch Gartner bestätigt

Der Grund ist so einfach wie schwerwiegend: Das Bereinigen der Daten, auch Data Cleansing genannt, kostet Zeit, Aufwand und Geld. Verglichen mit dem drohenden Resultat auf Basis unbereinigter Daten, ist es allerdings weit günstiger.

Was ist Data Cleansing genau? 

Data Cleansing bezeichnet den Prozess der Veränderung von Daten in einer bestimmten Speicherressource, um sicherzustellen, dass sie akkurat und korrekt sind. Damit ist nicht zwangsläufig gemeint, unpassende Daten zu löschen. Vielmehr dient der Vorgang dazu, die Genauigkeit der Daten und die damit verbundene Qualität ihrer Aussagen zu maximieren. 

Auch ist beim Data Cleansing nicht impliziert, eine Art Datenperfektion zu erreichen. Denn Daten sind Mittel zum Zweck. Vielmehr sollte ein Qualitätsniveau angestrebt werden, auf dem Daten nutz- und verarbeitbar sind, das effiziente Prozesse ermöglicht und optimale Ergebnisse zu erreichen hilft. Data Cleansing sollte daher von jenen Experten durchgeführt werden, die auch mit den Prozessen vertraut sind – von den Data Scientists. In der Tat macht es sogar den Großteil ihrer Arbeit aus. 

Industrielle KI kommt und braucht Data Cleansing

Markt und Aufgaben von Künstlicher Intelligenz und Machine Learning wachsen weiter überproportional. Schon jetzt beschäftigt sich die Hälfte aller deutschen Unternehmen aktiv mit diesen Technologien, 22 Prozent setzen sie bereits produktiv ein, wie unsere aktuelle Studie zum Thema zeigt.

Die jüngste Ausgabe der Gartner "CIO Survey" bestätigt, dass es auch international enormen Bedarf an Künstlicher Intelligenz gibt. Die Zahl der Unternehmen, die sie einsetzen, ist in den letzten vier Jahren um 270 Prozent gestiegen. Allein im vergangenen Jahr hat sich der Anteil verdreifacht. Als Grund benennen die Analysten die enorme Weiterentwicklung entsprechender Technologien und notwendiger Computerleistung. Derzeit werden KI-Lösungen noch auf spezielle Anwendungsfälle trainiert, doch datenbasierte Entscheidungen beeinflusst sie längst.

Spätestens mit dem nächst anstehenden Entwicklungsschritt, der dritten Welle der KI und den damit einhergehenden kontextualen Fähigkeiten, beginnt die Phase der KI-Industrialisierung. Dann werden die Prozesse so komplex und erfolgskritisch sein, dass KI samt akkurater Daten im Unternehmenseinsatz unverzichtbar sein wird.

Das könnte dich auch interessieren:
Studie belegt: Nutzung von Machine Learning verzehnfacht sich 
So können auch kleine Unternehmen Machine Learning nutzen 
KI-Strategie der Bundesregierung: eine Einordnung

Aktuelle Blogeinträge

Social Media

Kontakt

The unbelievable Machine
Company GmbH
Grolmanstr. 40
D-10623 Berlin

+49-30-889 26 56-0 +49-30-889 26 56-11 info@unbelievable-machine.com

Kostenloses Whitepaper

Data Thinking:
Erfolgsrezept für den digitalen Wandel

Zum Whitepaper