Einige wichtige Aspekte von Datenqualität
Schauen wir uns vier Kriterien der Grafik etwas genauer an:
- Vollständigkeit: Alle erforderlichen Daten für eine Entität müssen vorhanden sein. Zum Beispiel bei einer Person, die für einen Geschäftsprozess relevant ist, sollten alle wesentlichen Informationen wie Geburtsdatum, Name und Vorname oder Adresse erfasst sein.
- Aktualität: Wie aktuell sind die Daten gemäss den vorhandenen Anforderungen bzw. wie viel Veralterung eines Datenbestands ist tolerierbar? Ein Beispiel: Für die Bearbeitung eines Schadenfalls werden stets aktuelle Daten benötigt. Bei manuellen Prozessen sind oft tägliche Datenaktualisierungen ausreichend, während bei maschinellen Prozessen die Anforderungen häufig höher sind und je nach Anwendungsfall oft Echtzeitdaten benötigt werden.
- Verfügbarkeit: Wie gut sind die Daten zugänglich, wenn sie benötigt werden? Bei einem Kernsystem reicht es oft, wenn die Daten während der Bürozeiten verfügbar sind. Bei einem Kundenportal hingegen müssen die Daten rund um die Uhr, also 24/7, für die Kunden zugänglich sein.
- Wiederherstellbarkeit: Hier geht es darum, wie gut die Daten wiederhergestellt werden können, wenn ein Problem auftritt. Auch nach einem Ausfall oder Fehler müssen die Daten in einem guten Zustand bleiben und ihre Funktionen im jeweiligen Anwendungsfall weiterhin erfüllen können.
Inhärente vs. systemabhängige Qualität – einfach erklärt
Dabei wird systemabhängige Datenqualität durch Eigenschaften und Funktionalitäten der IT-Systeme, in denen Daten gespeichert, verarbeitet oder übertragen werden, beeinflusst.
Als Abgrenzung dazu gilt die inhärente Datenqualität, diese ist unabhängig vom verwendeten System.
Ein Beispiel zur Verdeutlichung:
Wenn die Use-Case-Anforderungen Echtzeit-Datenaktualität voraussetzen, sind stündliche Updates mit ETL-/ELT-Prozessen nicht gut genug und liefern damit in diesem Kontext schlechte Daten. Es handelt sich jedoch um systemabhängige Datenqualität, da man potenziell mit besseren Streaming-Technologien und Architektur-Anpassungen diese erhöhen könnte.
Im Gegensatz dazu, wenn in einem Datenprodukt ein Attribut immer vorhanden sein muss, jedoch häufiger in den einzelnen Payloads fehlt, ist es ein inhärentes Problem für diese Daten. Insgesamt gilt also, dass die Güte eines Datenbestandes immer im Kontext eines entsprechenden Use Cases betrachtet werden muss.