
Adam Szendrei
IT Architect
Eine Data- & Analytics-Plattform ist ein komplexes Gebilde und wird von Experten bedient. Ob diese Cloud-native gebaut werden kann, erfahren Sie in diesem Blog.
Autor: Adam Szendrei
Um es gleich vorweg zu nehmen: Ja, auch eine komplexe Werkzeug-Landschaft, wie es eine Data- und Analytics-Plattform ist, lässt sich Cloud-native aufsetzen. Die beiden grossen Vorteile eines solchen Ansatzes sind:
Wie wird die Plattform skaliert?
Sind die Daten stets aktuell?
Solche Fragen müssen beantwortet werden, wenn eine Data- und Analytics-Plattform aufgebaut werden will, on premises wie auch in der Cloud.
Abbildung 1 zeigt die typischen Verarbeitungsstufen eines Analytics-Projektes:
Wie erwähnt, sollte jede Data- und Analytics-Plattform diese Themen und Bereiche abdecken und die oben formulierten Fragen zufriedenstellend beantworten können. Im nächsten Abschnitt stellen wir vor, wie Google diese Herausforderung angeht.
Die Antwort von Google auf die Data- und Analytics-Plattform ist Cloud Data Fusion. Es handelt sich hierbei um eine Sammlung von Werkzeugen, mit welcher einerseits traditionelle Datenverarbeitung (z.B. ETL mit Spark) gemacht werden kann. Andererseits können jedoch auch grosse Datenmengen mit einer kurzen Latenzzeit verarbeitet werden. Google Cloud Data Fusion ist eine Google Cloud Plattform, auf welcher Code Free ETL Pipelines via eines Drag and Drop Interface entwickelt werden können. Cloud Data Fusion übersetzt die visuell erstellte Pipeline in einem Apache Spark- oder MapReduce-Programm, welches Transformationen parallel in einem kurzlebigen Dataproc-Cluster ausführt. Auf diese Weise können auf einfache Weise komplexe Transformationen über grosse Datenmengen skalierbar und zuverlässig realisiert werden, ohne die Infrastruktur verwalten zu müssen. Cloud Data Fusion ist vergleichbar mit Google Dataflow. Dataflow ist auch ein Dienst für die parallele Datenverarbeitung, sowohl für Batch- als auch für Stream-Verarbeitung. Es verwendet jedoch Apache Beam an Stelle von CDAP und kann mit wenigen Code-Modifikationen von einem Batch zu einer Stream Pipeline wechseln. Abbildung 2 zeigt den Aufbau der Cloud Data Fusion-Plattform.
Datenanalysten, Data Scientisten oder Business Analysten, die sich gewohnt sind, auf der althergebrachten DWH-Infrastruktur des Unternehmens direkt in Datenbanken zu arbeiten, werden sagen: “Wir haben doch viel mehr Flexibilität und auch Agilität, wenn wir das selbst aufsetzen und betreiben.” Ist da was dran? Wir sagen jein. Auf jeden Fall sprechen folgende Gründe sehr stark für einsatzfertige Plattformen:
Zusammenfassend kann gesagt werden, dass der Einsatz von ETL-Technologien in Cloud-nativen Umgebungen viele Vorteile gegenüber einer selbst unterhaltenen on premises Variante bringt. Ein kleines Defizit bezüglich Flexibilität wird dabei bei weitem aufgeholt. Das Mass an Portabilität ist bei Google Data Fusion genügend hoch, so dass man auch nicht einem starken Lock-In zum Opfer fällt.