Nahezu alle Unternehmensentscheidungen werden auf Grundlage von Daten getroffen. Ein funktionierendes Data Quality Management ist also eine wichtige Grundlage für den Erfolg von Unternehmen. Dabei steht im Vordergrund, dass die Daten korrekt und konsistent vorliegen, damit sie spezifische Anforderungen von Digital Business Modellen erfüllen können.
Besonders gut zeigt sich dies am Beispiel von Produktinformationen, denn qualitativ hochwertige Produktdaten sind das A und O für jedes digitale Business. Nur wenn ein Unternehmen seine Produkte auf verschiedenen Vertriebskanälen gut präsentiert, – und dafür sind Produktdaten unerlässlich – kann es sie in Zeiten, in denen sich das Beschaffungsverhalten immer mehr in die digitale Welt verlagert, auch verkaufen. Produktdaten sind auch im Zusammenhang mit neuen, digitalen Services, wie z. B. Produktkonfiguratoren, nicht wegzudenken.
Aus diesem Grund werden wir die Aspekte des Data Quality Managements immer wieder am Beispiel von Produktdaten illustrieren, da hier der Nutzen von DQM besonders gut abzuleiten ist.
Warum ist Data Quality Management so wichtig?
DQM ist für viele Unternehmen ein schwieriges Thema, das immer wieder für Kontroversen sorgt. So sind 84% aller Entscheidungsträger nicht von der Datenqualität im eigenen Unternehmen überzeugt (Vgl. KPMG International, 2016). Dabei ist die Datenqualität ein entscheidendes Kriterium für den Unternehmenserfolg. MIT Sloan hat in einer Studie herausgefunden, dass schlechte Daten 15-25 % des Gesamtumsatzes kosten können (Vgl. Studie MIT Sloan, 2017).
Überträgt man diesen Gedanken auf das Beispiel von Produktdaten, dann wird dies schnell deutlich. Denken wir an den Absatzkanal Onlineshop und nehmen an, die Produktinformationen, die über den Webshop eines Unternehmens ausgegeben werden, sind nicht ausreichend oder schlichtweg inhaltlich falsch. Angaben von Größen sind nicht korrekt, Bilder sind falsch zugeordnet oder nicht vorhanden, Produkttexte unvollständig.
Was sind die Effekte qualitativ mangelhafter Produktinformationen?
Wenn Produktdaten nicht richtig beschrieben sind, werden die Produkte im Internet von potenziellen Käufern gar nicht erst gefunden oder die Suchergebnisse sind derart unbefriedigend, dass die Absprungraten im Onlineshop exponentiell steigen.
Andere Kunden finden die gesuchten Produkte, erhalten aber falsche Produktinformationen. Diese Kunden kaufen entweder in einem anderen Shop, der seine Produkte besser beschrieben hat. Oder die Kunden kaufen die falsch beschriebenen Produkte und erhalten Waren, die nicht ihren tatsächlichen Vorstellungen entsprechen. Dann steigt die Retourenquote. Das verursacht hohe Rücklaufkosten, Internetbewertungen werden schlechter.
In jedem dieser Fälle sinkt letztlich der Umsatz des Onlineshops nachhaltig. Es dauert lange und ist mit hohem Aufwand verbunden, bis Defizite, die durch falsche Produktinformationen verursacht wurden, wieder ausgeglichen werden können. Anders gesagt: Durch mangelndes DQM sinkt der Unternehmenserfolg spürbar.
Datenqualität frühzeitig prüfen
Je länger fehlerhafte (Produkt-)Daten im Unternehmen verbleiben, umso weiter steigen die Kosten, die dadurch verursacht werden. Erfolgt die Qualitätskontrolle gleich zu Beginn der Datajourney im Unternehmen (statt erst nach längerer Zeit), können die Kosten für das Auffinden der Fehlerquellen und die nachträgliche Datenpflege etwa um den Faktor 10 verringert werden.
Die Datenqualität sollte also möglichst früh, eigentlich bereits beim Eintritt der Daten ins Unternehmen, standardmäßig geprüft werden.
Heterogene Datenquellen
Oftmals ist es schwierig, alle Datenquellen im Blick zu behalten. Daten liegen verstreut in internen Listen und Dateien, kommen von verschiedenen Datenlieferanten und liegen in unterschiedlichen Formaten und Pflegeständen vor. Hinzu kommt, dass oftmals externe Datenquellen verschiedener Arten und Formate miteinbezogen werden müssen.
Häufig hält jede Abteilung ihre eigenen Daten und die Datenqualität variiert dabei stark.
Systemübergreifende Standards für die Datenqualität und -haltung sind dabei ein erster Schritt, heterogene Datenhaltung zu vermeiden. Die Datenqualität wird so auf eine verbesserte Ebene gehoben.
Eine DQM-Software, die mit allen Datenquellen gut zurechtkommt, hilft, die Datenqualität dauerhaft zu halten. Fehlerquellen können damit im Idealfall schnell gefunden und ausgemerzt werden.
Fehlerquellen von Daten finden und nachverfolgen
Die Ursache für schlechte Datenqualität liegt meist an der Datenquelle oder wird bei der Verarbeitung von Daten verursacht. Wurde ein Fehler gefunden, müssen Sie in der Lage sein, die Daten über die gesamte System- und Anwendungslandschaft bis zur Fehlerquelle zu verfolgen.
Mit einer leistungsfähigen Software sind Sie in der Lage, die Daten in Echtzeit auf Datenfehler hin zu untersuchen und bis zur Quelle zurückzuverfolgen. Am Ende steht ein fehlerfreier, konsolidierter Datenbestand. Datenfehler werden dauerhaft behoben und die Datenqualität nachhaltig verbessert.
Exponentielles Wachstum der Datenmengen muss beherrscht werden
Wir leben im Zeitalter der Daten. Täglich werden Unmengen von Daten neu generiert und bestehende Daten wiederverwendet. Allein in den letzten zwei bis drei Jahren sind aktuellen Studien zufolge 90% des weltweiten Datenbestands neu entstanden. Das kommt einer Informationsexplosion gleich (Vgl. Studie IDC und Seagate, 2020).
Die Teams für Datamanagement sind deshalb oftmals überlastet. Das Management von Daten wird in manchen Unternehmen immer noch geradezu stiefmütterlich behandelt. Abteilungen, die mit dem Datamanagement befasst sind, arbeiten häufig dezentral und unabhängig voneinander.
Nicht selten trifft man auch auf den Fall, dass das Datamanagement von Mitarbeitenden neben ihren eigentlichen Aufgaben erledigt werden muss.
Am Beispiel von Produktinformationen wird dies sehr plastisch:
So ist die Abteilung für das Produktdatenmanagement oftmals abgekoppelt von der Marketingabteilung, die ebenfalls relevante Produktinformationen produziert. In beiden Abteilungen werden aber Daten über die gleichen Produkte generiert und verwaltet.
PIM Systeme helfen in diesem Fall, Datenfluten zu konsolidieren, Fehlerquellen offenzulegen und große Mengen unterschiedlicher Daten zu organisieren.
Kriterien für gute Datenqualität
Was ist Datenqualität?
Für die Definition von Datenqualität (englisch Dataquality) gibt es sehr unterschiedliche Ansätze. Häufig werden unterschiedliche Bewertungskriterien herangezogen. Das führt dazu, dass schon in ein und demselben Unternehmen das Verständnis von Datenqualität unterschiedlich sein kann.
Für einige ist die Einzigartigkeit von Daten das maßgebliche Kriterium. Für andere ist die Standardisierung der Datenbestände ausschlaggebend.
Aus der DIN ISO 9000:2015 kann man die Definition von Datenqualität wie folgt ableiten:
„Datenqualität ist der Grad, in dem die Dimensionen der Daten die Anforderungen erfüllen“
Die Dimensionen oder Bemessungskriterien von Datenqualität schwanken dabei sehr stark und können bis zu 60 Bewertungskriterien enthalten. Das Thema ist also vielschichtig.
Vollständigkeit
Leere und unvollständige Datensätze müssen identifiziert, fehlende Informationen ergänzt werden.
Genauigkeit
Es gilt zu prüfen, ob die vorliegenden Werte mit den tatsächlichen Daten, die in der realen Welt vorliegen, übereinstimmen.
Validität
Daten sind dann valide, wenn sie einem bestimmten Datenmodell oder einer zuvor festgelegten Regel entsprechen.
Einzigartigkeit
Daten sollten immer nur einmal vorhanden und zentral für alle Nutzer zugänglich gespeichert sein. So wird sichergestellt, dass keine Redundanzen entstehen.
Konsistenz
Daten sind dann konsistent, wenn sie in sich frei von Widersprüchen sind. Eine hohe Datenkonsistenz wird dann erreicht, wenn an allen benötigten Stellen die Daten identisch und aktuell sind.
Aktualität
Hier spielt eine große Rolle, dass bei einer Änderung der Datenquelle die betroffenen Daten in allen Nutzungsszenarien synchronisiert bzw. aktualisiert werden.
Nachvollziehbarkeit
Sowohl die Datenquelle als auch die Veränderung der Daten sollten immer nachvollziehbar sein. Das stellt sicher, dass Datenfehler tatsächlich an der Quelle behoben werden.
Klarheit
Datenqualität ist dann gewährleistet, wenn die Metadaten (also die Beschreibungen von Daten) klar und unmissverständlich sind. Die Bedeutung der Daten ist dann eindeutig und es kommt z.B. bei der Erfassung nicht zu Interpretationen. Datenfehler werden von vornherein vermieden.
Verfügbarkeit
Der Zugang zu den Daten sollte für alle Benutzer leicht sein. Nutzerrechte sollten aber regeln, wer die Daten verwenden und verändern bzw. löschen darf. Es sollte auch geregelt sein, zu welchem Zweck die User die Daten überhaupt verwenden dürfen.
Ist Datenqualität messbar?
Datenqualität ist messbar.
Sind Regeln für die Datenqualität im Unternehmen definiert und finden Anwendung, ist es wichtig, die Daten und ihre Qualität an ein Kennzahlensystem zu koppeln.
So kann man schnell ermitteln, wie viele Daten den vorgegebenen Datenregeln nicht entsprechen, unvollständig oder veraltet sind. Mit verschiedenen Methoden entstehen dadurch objektiv zu bewertende Kennzahlen für die Datenqualität.
Normalerweise werden zwei Arten der Datenqualitätsmessung in Betracht gezogen.
Wie lässt sich Datenqualität messen?
Quantitative, automatisierte Messung der Datenqualität mit einer DQM-Software
Mittels einer Datenqualitätssoftware kann eine automatisierte quantitative Messung der Datenqualität erfolgen.
Das Tool zeigt z.B. die Zahl unvollständiger oder auch veralteter Daten an. Diese Messung erfolgt direkt in der Datenbank. Im Idealfall ermöglicht die Software die sofortige Behebung von qualitativen Mängeln an der Datenquelle.
Die quantitative Auswertung der Datensätze gibt dann auch Hinweise auf die – im Idealfall – steigende Qualität der Daten.
Die automatisierte Auswertung sollte in regelmäßigen (vor allem anfangs auch engen) Abständen durchgeführt werden. Sie bietet dann einen kontinuierlichen Überblick über die Datenqualität. Sozusagen in Echtzeit lässt sich die Wirksamkeit von Maßnahmen zur Qualitätsverbesserung der Daten quantitativ ablesen.
Automatisierte Abfragen, die standardmäßig und selbstständig von der Software ausgeführt werden, helfen hierbei ganz enorm.
Kriterien, die automatisiert gemessen werden können:
- Alter der Daten
- Alter nicht bereinigter Fehler (wdh. Anzeige derselben Datenfehler)
- Zahl der Redundanzen
- Vollständigkeit der Daten (anhand vorgegebener Standards)
- Zahl der Neuanlagen von Datensätzen
- Konsistenz der Daten
Messung der Datenqualität durch Befragung der Anwender
Eine regelmäßige Befragung der Anwender und Qualitätsbeauftragten hinsichtlich der qualitativen Merkmale sollte die automatisierte Auswertung immer ergänzen.
Dies gibt wichtige Hinweise auf die tatsächliche Nutzbarkeit von Daten. Denn man darf nie vergessen: Daten können zwar inhaltlich korrekt und auch aktuell sein. Eine Software wird diese Daten positiv bewerten. Möglicherweise sind diese technisch korrekten Daten aber in der Realität tatsächlich nicht nutzbar. Sie sind dann wertlos und hemmen im äußersten Fall den Unternehmenserfolg.
Wie oft eine solche Befragung durchgeführt werden sollte, hängt von der Größe des Unternehmens ab. Auch die Gesamtzahl der zu verarbeitenden Daten bzw. die Frequenz der Neuanlage von Daten kann ein Faktor sein, der dafür eine Rolle spielt.
Wichtig ist, dass alle Stakeholder, die mit der Neuanlage, der Verwaltung und der Nutzung des Datenbestandes betraut sind, befragt werden. In der Regel ist eine solche Datenerhebung zweimal pro Jahr ausreichend.
Die Befragung sollte immer kritisch und auf jede Nutzergruppe individuell angepasst werden.
Qualitätskritische Fragen, die in einer solchen Datenerhebung eine Rolle spielen können:
- Sind die Daten aus Usersicht aktuell?
- Sind die Daten rechtzeitig für die Nutzung verfügbar?
- Sie die Metadaten verständlich?
- Sind die Datensätze detailliert und verlässlich genug?
- Können die Daten von den Usern tatsächlich genutzt bzw. wieder verwendet werden?
- Sind die Daten korrekt?
- Kann die Neuanlage bzw. die Veränderung von Daten unkompliziert erfolgen?
- Sind die Daten technisch schnell verfügbar?
IANEO Data Quality Tool
- Fehlerquellen erkennen
- Datenqualität messen & steigern
- als Standalone-Lösung oder als Modul in FASTPIM