Data Mesh in der technischen Umsetzung

Blogserie | From Data to Business Value with Data Mesh | #3

Autoren: Gerald Reif & Yu Li

In unserem letzten Blogpost haben wir die vier Prinzipien vorgestellt, die einem Data Mesh zugrunde liegen. Diese Prinzipien sind technologie-agnostisch und machen keine Vorgaben, wie ein Data Mesh umgesetzt werden muss. Das hat den Vorteil, dass ein Data Mesh auf vielen Plattformen und mit verschiedensten Servicekomponenten umgesetzt werden kann. Diese Flexibilität birgt aber die Gefahr, dass die technische Umsetzung die zugrundeliegenden Prinzipien verletzt. In diesem Blogpost leiten wir die Anforderungen her, die sich aus den vier Data Mesh Prinzipien ergeben und zeigen auf, wie diese Anforderungen technisch umgesetzt werden können.

Anforderungen, die sich aus den vier Data Mesh Prinzipien ergeben

Die vier Prinzipien von Data Mesh.png
Abbildung 1: Data Mesh Prinzipien, deren Anforderung und deren technische Umsetzung

Prinzip 1: Domain Ownership

Die Verantwortung für die Daten wird von den Domänen, also von den einzelnen Abteilungen im Unternehmen, übernommen. In einem Data Mesh existiert eine Instanz einer Datenplattform pro Domäne. Daraus ergibt sich die Anforderung, dass ein Plattform-Team in der Lage sein muss, mit geringem Aufwand den Domänen eine Instanz der Datenplattform bereitzustellen.

Prinzip 2: Data as a Product

Analog zu anderen Produkten muss auch ein Datenprodukt gewisse Qualitätskriterien erfüllen. Um diese zu ermöglichen, muss klar sein, in welchem Umfang und mit welcher Aktualität ein Datensatz bereitgestellt wird und über welches Interface auf die Daten zugegriffen werden kann. Des Weiteren müssen fortlaufend die Vollständigkeit und Korrektheit der Daten durch automatisierte Tests überprüft werden. 
Warum sind definierte Qualitätskriterien so essenziell? Die Kenntnis der Qualitätskriterien schafft Vertrauen in einen Datensatz und erlaubt es, unternehmenskritische Entscheidungen datenbasiert zu treffen.

Prinzip 3: Selfservice

Damit eine Domäne (Abteilung) möglichst einfach ihre Datenprodukte in einem Data Mesh aufbereiten kann, ist jedem Domänen-Team eine Instanz der Datenplattform via Selfservice bereitzustellen. Zudem sollen Datenprodukte (Datensätze) für Wiederverwendung zur Verfügung gestellt werden, sofern der entsprechende Data Owner dieser zustimmt. 
In einem Selfservice Portal für Datenprodukte muss folgendes möglich sein:

  • Datenprodukte auffinden 
  • Zugriffe auf die Daten beantragen
  • In einem Approval-Prozess dem Zugriff auf Daten zustimmen

Prinzip 4: Föderierte Governance

Auch wenn die Domänen in einem Data Mesh für die Aufbereitung, Bereitstellung und Qualität ihrer Datenprodukte verantwortlich sind, muss gewährleistet sein, dass unternehmensweite Vorgaben in jeder Domäne eingehalten werden. Diese Vorgaben sollten folgende Punkte adressieren und regeln:

  • den netzwerktechnischen Schutz der Datenplattform 
  • den Zugriffsschutz auf die Daten 
  • das Monitoring
  • die Auditfähigkeit 
  • die Einhaltung der datenschutzrechtlichen Vorgaben im Unternehmen

Technische Umsetzung der Data Mesh Anforderungen

Im vorherigen Abschnitt haben wir die Anforderungen beleuchtet, die sich aus den vier Data Mesh Prinzipien ergeben. Nun stellt sich die Frage, wie sich diese Anforderungen in einer Datenplattform umsetzen lassen.
In diesem Abschnitt stellen wir drei Technologien vor, welche den effizienten Aufbau eines Data Mesh ermöglichen. 

1) Infrastructure as Code (laC)

In einem Data Mesh muss das Plattform-Team jeder Domäne eine Instanz der Datenplattform zur Verfügung stellen. Jede dieser Instanzen muss sowohl die funktionalen Vorgaben für Datenspeicher und Analyse erfüllen als auch die zentralen Vorgaben für Sicherheit, Audit und Governance. Um zu gewährleisten, dass jede Plattform für jede Domäne die Vorgaben erfüllt, muss das Plattform Deployment automatisiert werden. Über Infrastructure as Code werden die Services, die eine Datenplattform ausmachen, in einer formalen Sprache beschrieben und konfiguriert. Das Deployment-Tool arbeitet diese formale Beschreibung ab und stellt damit sicher, dass in jeder Domäne und in jedem Staging Environment (Dev, Test, Prod) die definierten Vorgaben erfüllt werden. Durch die formale Beschreibung der Plattform via laC wird damit garantiert, dass es in keinem Environment zu manuellen Konfigurationsfehlern kommt. IaC ist auch die Grundlage dafür, dass eine Datenplattform via Selfservice für ein Domänen-Team bereitgestellt werden kann.

2) Cloud Services

Eine Datenplattform besteht aus einer Reihe von Komponenten, welche das Speichern und Verarbeiten von Daten, den Zugriffsschutz, das Monitoring und den Audit ermöglichen. All diese Komponenten müssen über eine durchgängige Benutzerverwaltung gemanaged werden. Dafür bieten alle grossen Hyperscaler Cloud Service Lösungen an, welche die geforderten Anforderungen bestens erfüllen, sich integrieren lassen und den umfassenden Zugriffsschutz regeln. Die Cloud Services lassen sich darüber hinaus via laC deployen und stellen damit die ideale Grundlage für die Umsetzung eines Data Meshs dar.

3) Data Catalog

In einem Data Mesh liegt die Verantwortung für die Daten bei den einzelnen Domänen-Teams. Ihr Verantwortungsbereich umfasst dabei: 

  • den Datentransfer in die Datenplattform,
  • das Aufbereiten der Daten,
  • die Analysen & 
  • das Bereitstellen von Datenprodukten. 

Um unternehmensweit datenbasierte Entscheidungen treffen zu können, darf die Datenverarbeitung nicht an den Domänengrenzen enden. Andere Domänen müssen über das Vorhandensein von qualitativ hochwertigen Datenprodukten informiert sein, diese Daten mit ihren eigenen Daten anreichern und dadurch höherwertige Analysen und Datenprodukte erstellen. 

Ein Datenkatalog übernimmt in einem Data Mesh genau diese Aufgabe. Jede Domäne bewirbt und verwaltet dabei ihre Datenprodukte im unternehmensweiten Datenkatalog. Dieser beschreibt jedes Datenprodukt u.a. anhand folgender Informationen:

  • Inhalt der Daten
  • Qualität
  • Frequenz von Änderungen
  • Schnittstellen
  • Datenowner

Hat ein anderes Team auf diese Weise ein Datenprodukt ausfindig gemacht, an dem es Interesse hat, kann über den Datenkatalog der Zugriff auf die Daten angefordert werden. Stimmt der Datenowner dieser Verwendung zu, werden vom Datenkatalog die entsprechenden Berechtigungen freigegeben. 
Der Datenkatalog stellt damit die zentrale Schnittstelle dar, um die domänenübergreifende Wiederverwendung von Datenprodukten zu gewährleisten.

Fazit

In diesem Blogpost wurden die Anforderungen diskutiert, die sich aus den 4 Data Mesh Prinzipien ergeben und die technologischen Ansätze vorgestellt, mit denen sich diese Anforderungen bevorzugt umsetzen lassen. 
Zusammenfassend kann folgendes gesagt werden:

  1. Cloud Services eignen sich bestens, um einen Data Mesh zu implementieren.
  2. Infrastructure as Code bewährt sich, um die Services zu deployen und entsprechend der Governance Vorgaben zu konfigurieren. 
  3. Der Datenkatalog stellt sicher, dass die Datenprodukte domänenübergreifend wiederverwendet werden können, um unternehmensweite datenbasierte Entscheidungen zu treffen. 

In Teil 4 dieser Blog Serie werden wir auf die Team Organisation eingehen, die es benötigt, um das Data Mesh zum Fliegen bringen zu können.

Data Mesh Blogserie: 

Blog #1 die Motivation dahinter

Blog #2 ihre vier Prinzipien

Blog #3 die technische Umsetzung

Blog #4 ihre Teams

Deine ipt-Experten

Wir freuen uns auf Deine Kontaktaufnahme