Datenqualität in Organisationen: Definition & Schwierigkeiten

In einer Welt, in der strategische Entscheidungen auf Daten basieren, wird gute Datenqualität zum kritischen Erfolgsfaktor. Studien zeigen: Unternehmen verlieren im Schnitt 5 bis 13 Millionen US-Dollar pro Jahr durch fehlerhafte, unvollständige oder veraltete Daten.

Doch warum fällt es vielen Organisationen schwer, die Qualität ihrer Daten nachhaltig zu sichern? Das klären wir in unserer zweiteiligen Blogserie «Datenqualität als Wettbewerbsvorteil».

Im ersten Teil schaffen wir ein gemeinsames Verständnis für den Begriff «Datenqualität» und analysieren typische Herausforderungen für Unternehmen.

Im zweiten Teil werfen wir einen Blick in die Praxis: Drei Schweizer Organisationen zeigen, wie sie Datenqualität systematisch und erfolgreich sicherstellen. Insbesondere werden wir dabei technische, architektonische und organisatorische Ansätze beleuchten.

Warum ist Datenqualität so schwer zu gewährleisten?

In einer datengetriebenen Organisation wird die Bedeutung von Daten zunehmend zentraler. Eine Schlüsselkomponente für die Schaffung von Business Value ist die Datenqualität.

Die Bedeutung von Datenqualität wird durch die Kosten verdeutlicht, die schlechte Datenqualität verursachen kann: Laut einer Gartner Studie (2020) verursacht eine mangelhafte Datenqualität bei Unternehmen durchschnittliche jährliche Kosten von 12,9 Millionen US-Dollar.

Eine aktuelle Forrester-Studie (2023) schätzt die Verluste auf etwa 5 Millionen US-Dollar pro Jahr, wobei 7% der befragten Unternehmen sogar Einbussen von über 25 Millionen US-Dollar verzeichnen.

Zu den häufigsten Herausforderungen gehören:

wachsende regulatorische Anforderungen
Inkonsistenzen in den Daten über verschiedene Quellen hinweg
ein Mangel an Ressourcen

Eine sorgfältige Verwaltung und klare Verantwortung für die Datenqualität sind daher entscheidend, um die Leistungsfähigkeit von Daten- und Analyse-Initiativen zu maximieren und Kosten zu minimieren.

Viele Unternehmen tun sich schwer, wichtige Begriffe rund um Datenqualität klar zu definieren. Gleichzeitig gelingt es ihnen oft nicht, die Datenqualität systematisch sicherzustellen.

Warum also dieser inkonsistente Umgang mit einem so wichtigen Thema? Die Antwort ist vielschichtig, lässt sich aber auf zwei grundlegende Probleme zurückführen - «Was» und «Wie».

«Was»: Zum einen fehlen häufig klare Governance-Standards in Unternehmen, die auf die vielfältigen und komplexen Datenstrukturen abgestimmt sind bzw. es mangelt an einer ausreichend hohen Datenreife (Data Maturity). Es ist also gar nicht einheitlich klar, was ‘gute’ Daten ausmacht.
«Wie»: Zum anderen sind die Nutzniesser der Datenqualität oft nicht dieselben wie die Ersteller oder Produzenten der Daten, und die Verantwortung für die Datenqualität ist unternehmensweit nicht eindeutig definiert. Wie kann man also die Datenproduzenten dazu motivieren, qualitativ hochwertige Daten bereitzustellen?

Was bedeutet «gute» Datenqualität genau?

Machen wir also einen Schritt zurück und definieren gemeinsam, was wir unter guten Daten verstehen.

Datenqualität bezieht sich auf die Nutzbarkeit und Anwendbarkeit von Daten für die wichtigsten Anwendungsfälle einer Organisation, wie beispielsweise Künstliche Intelligenz (KI), maschinelles Lernen oder analytische und integrative Aufgabenstellungen.

Sie ist ein wesentlicher Bestandteil des effektiven Datenmanagements und der Daten-Governance. Hohe Datenqualität wird immer im Hintergrund eines Use-Cases betrachtet und stellt sicher, dass Informationen korrekt, zuverlässig und rechtzeitig eintreffen. Sie ermöglicht damit fundierte Entscheidungen und eine höhere betriebliche Effizienz.

Die wichtigsten Qualitätsdimensionen bei Daten laut ISO 25012

Die systematische Auseinandersetzung mit den Qualitätsdimensionen ist dabei in der ISO/IEC 25012 festgehalten durch 15 Kriterien, welche in zwei hauptsächliche Kategorien eingeordnet sind: systemabhängige Datenqualität vs. inhärente Datenqualität.

Abbildung: Übersicht der Datenqualitätskriterien nach ISO/IEC 25012

Einige wichtige Aspekte von Datenqualität

Schauen wir uns vier Kriterien der Grafik etwas genauer an:

Vollständigkeit: Alle erforderlichen Daten für eine Entität müssen vorhanden sein. Zum Beispiel bei einer Person, die für einen Geschäftsprozess relevant ist, sollten alle wesentlichen Informationen wie Geburtsdatum, Name und Vorname oder Adresse erfasst sein.
Aktualität: Wie aktuell sind die Daten gemäss den vorhandenen Anforderungen bzw. wie viel Veralterung eines Datenbestands ist tolerierbar? Ein Beispiel: Für die Bearbeitung eines Schadenfalls werden stets aktuelle Daten benötigt. Bei manuellen Prozessen sind oft tägliche Datenaktualisierungen ausreichend, während bei maschinellen Prozessen die Anforderungen häufig höher sind und je nach Anwendungsfall oft Echtzeitdaten benötigt werden.
Verfügbarkeit: Wie gut sind die Daten zugänglich, wenn sie benötigt werden? Bei einem Kernsystem reicht es oft, wenn die Daten während der Bürozeiten verfügbar sind. Bei einem Kundenportal hingegen müssen die Daten rund um die Uhr, also 24/7, für die Kunden zugänglich sein.
Wiederherstellbarkeit: Hier geht es darum, wie gut die Daten wiederhergestellt werden können, wenn ein Problem auftritt. Auch nach einem Ausfall oder Fehler müssen die Daten in einem guten Zustand bleiben und ihre Funktionen im jeweiligen Anwendungsfall weiterhin erfüllen können.

Inhärente vs. systemabhängige Qualität – einfach erklärt

Dabei wird systemabhängige Datenqualität durch Eigenschaften und Funktionalitäten der IT-Systeme, in denen Daten gespeichert, verarbeitet oder übertragen werden, beeinflusst.

Als Abgrenzung dazu gilt die inhärente Datenqualität, diese ist unabhängig vom verwendeten System.

Ein Beispiel zur Verdeutlichung:

Wenn die Use-Case-Anforderungen Echtzeit-Datenaktualität voraussetzen, sind stündliche Updates mit ETL-/ELT-Prozessen nicht gut genug und liefern damit in diesem Kontext schlechte Daten. Es handelt sich jedoch um systemabhängige Datenqualität, da man potenziell mit besseren Streaming-Technologien und Architektur-Anpassungen diese erhöhen könnte.

Im Gegensatz dazu, wenn in einem Datenprodukt ein Attribut immer vorhanden sein muss, jedoch häufiger in den einzelnen Payloads fehlt, ist es ein inhärentes Problem für diese Daten. Insgesamt gilt also, dass die Güte eines Datenbestandes immer im Kontext eines entsprechenden Use Cases betrachtet werden muss.

Ausblick: Teil 2 – So gehen Schweizer Organisationen bei der Sicherstellung von Datenqualität vor

Im zweiten Teil unserer Serie «Datenqualität als Wettbewerbsvorteil», zeigen wir, wie drei Schweizer Organisationen Datenqualität nicht dem Zufall überlassen. Denn in allen Fällen zeigt sich: Datenqualität ist kein IT-Nebenprojekt – sie ist ein strukturelles, kulturelles und strategisches Thema. Wer sie gezielt adressiert, schafft die Basis für nachhaltige digitale Transformation.

Über Christoph Weber

«Meine Passion: clevere Analytics-Lösungen mit AI&Data-Werkzeugen. Es begeistert mich, durch Technologie Innovation in Fachbereichen zu ermöglichen und echten Mehrwert zu schaffen.»

Christoph Weber

Über Valentin Verschinin

«Ich begeistere mich für alles rund um AI, Daten & Cloud, vor allem dafür, wie man mit guten Daten, durchdachter Technik & etwas Leidenschaft den Alltag unserer Kunden zukunftsfähiger machen kann.»

Valentin Verschinin