Technische Umsetzung der Data Mesh Anforderungen

Im vorherigen Abschnitt haben wir die Anforderungen beleuchtet, die sich aus den vier Data Mesh Prinzipien ergeben. Nun stellt sich die Frage, wie sich diese Anforderungen in einer Datenplattform umsetzen lassen.
In diesem Abschnitt stellen wir drei Technologien vor, welche den effizienten Aufbau eines Data Mesh ermöglichen.

1. Infrastructure as Code (laC)

In einem Data Mesh muss das Plattform-Team jeder Domäne eine Instanz der Datenplattform zur Verfügung stellen. Jede dieser Instanzen muss sowohl die funktionalen Vorgaben für Datenspeicher und Analyse erfüllen als auch die zentralen Vorgaben für Sicherheit, Audit und Governance. Um zu gewährleisten, dass jede Plattform für jede Domäne die Vorgaben erfüllt, muss das Plattform Deployment automatisiert werden. Über Infrastructure as Code werden die Services, die eine Datenplattform ausmachen, in einer formalen Sprache beschrieben und konfiguriert. Das Deployment-Tool arbeitet diese formale Beschreibung ab und stellt damit sicher, dass in jeder Domäne und in jedem Staging Environment (Dev, Test, Prod) die definierten Vorgaben erfüllt werden. Durch die formale Beschreibung der Plattform via laC wird damit garantiert, dass es in keinem Environment zu manuellen Konfigurationsfehlern kommt. IaC ist auch die Grundlage dafür, dass eine Datenplattform via Selfservice für ein Domänen-Team bereitgestellt werden kann.

2. Cloud Services

Eine Datenplattform besteht aus einer Reihe von Komponenten, welche das Speichern und Verarbeiten von Daten, den Zugriffsschutz, das Monitoring und den Audit ermöglichen. All diese Komponenten müssen über eine durchgängige Benutzerverwaltung gemanaged werden. Dafür bieten alle grossen Hyperscaler Cloud Service Lösungen an, welche die geforderten Anforderungen bestens erfüllen, sich integrieren lassen und den umfassenden Zugriffsschutz regeln. Die Cloud Services lassen sich darüber hinaus via laC deployen und stellen damit die ideale Grundlage für die Umsetzung eines Data Meshs dar.

3. Data Catalog

In einem Data Mesh liegt die Verantwortung für die Daten bei den einzelnen Domänen-Teams. Ihr Verantwortungsbereich umfasst dabei:

den Datentransfer in die Datenplattform,
das Aufbereiten der Daten,
die Analysen &
das Bereitstellen von Datenprodukten.

Um unternehmensweit datenbasierte Entscheidungen treffen zu können, darf die Datenverarbeitung nicht an den Domänengrenzen enden. Andere Domänen müssen über das Vorhandensein von qualitativ hochwertigen Datenprodukten informiert sein, diese Daten mit ihren eigenen Daten anreichern und dadurch höherwertige Analysen und Datenprodukte erstellen.

Ein Datenkatalog übernimmt in einem Data Mesh genau diese Aufgabe. Jede Domäne bewirbt und verwaltet dabei ihre Datenprodukte im unternehmensweiten Datenkatalog. Dieser beschreibt jedes Datenprodukt u.a. anhand folgender Informationen:

Inhalt der Daten
Qualität
Frequenz von Änderungen
Schnittstellen
Datenowner

Hat ein anderes Team auf diese Weise ein Datenprodukt ausfindig gemacht, an dem es Interesse hat, kann über den Datenkatalog der Zugriff auf die Daten angefordert werden. Stimmt der Datenowner dieser Verwendung zu, werden vom Datenkatalog die entsprechenden Berechtigungen freigegeben.
Der Datenkatalog stellt damit die zentrale Schnittstelle dar, um die domänenübergreifende Wiederverwendung von Datenprodukten zu gewährleisten.

Hast du auch einen spannenden Use Case? Let's talk!

Gerald Reif

Yu Li