BigQuery Omni – Die Revolution der Multi-Cloud-Analytics

Autor: Matthias Hert

Entwickelt von Google im Jahr 2020 und an der Google Cloud Next Konferenz vorgestellt, hat die Multi-Cloud-Analytics-Lösung BigQuery Omni die Art und Weise, wie Unternehmen ihre Daten analysieren, revolutioniert. Sehr gerne nehme ich Dich mit auf die Reise durch die spannende Technologie, die hinter BigQuery Omni steckt und teile in diesem Blog mein Wissen anhand eines fiktiven Beispiels. Nachfolgend zeige ich Dir, was BigQuery Omni ist, wie es funktioniert und wie Du in Deinem Unternehmen von dieser Lösung profitieren kannst.

Was ist BigQuery Omni?

Google BigQuery ist ein serverloses Data Warehouse, das über Google Cloud verfügbar ist und es Nutzer:innen ermöglicht, Petabytes an Daten schnell und kostengünstig zu analysieren. Die BigQuery-Architektur basiert auf einem verteilten System, das in der Lage ist, SQL-Abfragen auf grossen Datensätzen auszuführen, indem es die Ausführung der Abfrage in Slots aufteilt. 

Begriffserklärung BigQuery Omni.

Die Herausforderung: Multi-Cloud-Datensilos

Immer mehr Schweizer Unternehmen setzen auf Multi-Cloud-Lösungen – sei es aus strategischen Überlegungen oder bedingt durch historisch gewachsene Strukturen, beispielsweise durch Firmenübernahmen. Diese Strategie bietet eine Vielzahl von Vorteilen: Sie reduziert die Abhängigkeit von einem einzigen Cloud-Anbieter, ermöglicht einen Best-of-Breed-Ansatz bei der Auswahl der besten Services unabhängig vom Anbieter und erfüllt regulatorische Anforderungen und Business Continuity.

Gleichzeitig nimmt die Bedeutung von Daten und den daraus gewonnenen Erkenntnissen stetig zu. Um den Wert dieser Daten optimal auszuschöpfen, müssen sie leicht zugänglich und miteinander verknüpfbar sein. Doch die Multi-Cloud-Strategie bringt auch neue Herausforderungen mit sich, insbesondere hinsichtlich der Datenverwaltung und -nutzung. Die Verteilung der Daten auf verschiedene Cloud-Provider könnte zu neuen Datensilos führen.

Die Entstehung von Datensilos bedeutet, dass Daten in isolierten und nicht interoperablen Systemen gespeichert werden, was den Datenaustausch und die -analyse erschwert. Um diesem Problem entgegenzuwirken, ist es entscheidend, effektive Datenmanagement-Strategien zu entwickeln, die eine nahtlose Integration und Verbindung der Datenquellen über alle Cloud-Plattformen hinweg ermöglichen. Und hier kommt BigQuery Omni ins Spiel!

illustration_challenge_multi_cloud.png
In einer Multi-Cloud-Umgebung sehen sich Unternehmen mit der grossen Herausforderung der Datenanalyse konfrontiert.

Szenario: Wie BigQuery Omni mit Azure interagiert

 

Lasst uns für den Rest dieses Blogs ein fiktives Beispiel zur Veranschaulichung benutzen. Die Schweizer Privatbank “Fairy Tale Financials” setzt für ihre Eigenentwicklungen und die Data Analytics Plattform auf Google Cloud. Das zentrale CRM System läuft allerdings auf Microsoft Azure. Wie können die Daten des CRM in der Data Analytics Plattform auf Google Cloud analysiert und mit anderen Daten, die bereits in Google Cloud vorhanden sind, verknüpft werden? In Prä-BigQuery Omni-Zeiten boten sich zwei klassische Wege an:

 

  1. Datentransfer/ETL: Die CRM Daten können von Azure nach Google Cloud transferiert werden. Viele Data Analytics Lösungen bieten diese Funktionalität an. Oft sind aber zusätzliche ETL Tools oder Skripte nötig, um die Daten zu exportieren und in ein unterstütztes Format zu transformieren. Auch muss sichergestellt werden, dass die Daten regelmässig aktualisiert werden. Dadurch steigt die Komplexität und der Betriebsaufwand der Lösung. Zusätzlich hat die Erfahrung gezeigt, dass bei grossen oder sich schnell ändernden Daten auch die Performance der Lösung nicht mehr zufriedenstellend ist.
  2. Query Federation: Unter Query Federation versteht man die Möglichkeit mehrere Datensilos abzufragen ohne vorher alle Daten an einen zentralen Ort transferieren zu müssen. Dabei wird die Anfrage nach Quelle aufgeteilt und die Teilabfragen an die jeweiligen Quellen gesendet. In unserem Beispiel würde der Teil einer Abfrage, welche CRM Daten betrifft, herausgelöst und direkt an die CRM Datenbank in Azure geschickt. So müssten nur die Abfrageergebnisse von Azure nach Google Cloud transferiert werden und nicht die ganze Datenbank. Obwohl dieser Ansatz schon seit vielen Jahren verfolgt wird, konnte er nur in wenigen Situationen den erhofften Erfolg bringen. Oft leidet die Performance, weil dann doch grössere Datenmengen transferiert werden müssen oder die unterstützten Features beschränkt sind.

Müssen wir uns nun entscheiden, welche dieser Lösungen für uns das «kleinere Übel» ist? Oder gibt es eine bessere Lösung für dieses Problem?

Datenanalyse ohne Jetlag – Daten bleiben zuhause, die Engine reist!

Die bessere Lösung heisst natürlich BigQuery Omni. Mit BigQuery Omni besteht die Möglichkeit, Daten aus beispielsweise Microsoft Azure und AWS zu analysieren, ohne dass die Daten zur Analytics Engine transferiert werden müssen. Stattdessen reist die Analytics Engine zu den Daten selbst. Dies geschieht automatisch, ohne dass sich der Benutzer um das Deployment oder den Betrieb kümmern muss.
MHE_Blog_Grafiken BigQuery Omni_IGA.png
Im oben beschriebenen Szenario wurde die BigQuery Engine in Azure bereitgestellt, um die Daten dort zu verarbeiten. Lediglich die Ergebnisse werden zur Google Cloud BigQuery transferiert, um sie dort mit anderen Daten zu verknüpfen. Dies gewährleistet, dass die abgefragten Daten stets aktuell sind, da direkt in der Quelle gearbeitet wird. Zudem werden Datentransfers zwischen den Cloud Providern auf die Abfrageergebnisse minimiert, was zu einer Reduzierung von Komplexität und Betriebsaufwand führt, da dies als integriertes Feature von BigQuery geschieht. Kurz gesagt ermöglicht dieser Multi-Cloud Ansatz eine einfache und effiziente Integration und Analyse der durch ihn entstandenen Datensilos.

BigQuery Omni: Die Vorteile für Unternehmen

Unterstützung von Multi-Cloud-Strategien

Einheitliche Benutzeroberfläche

Kein Kopieren oder Verschieben von Daten

Serverloser, voll gemanagter Service:

Kosteneffizienz

Mein Fazit

Die BigQuery Omni-Technologie ermöglicht es Benutzer:innen, Daten nicht nur innerhalb der Google Cloud, sondern auch von verschiedenen Cloud-Plattformen über eine einzige BigQuery-Oberfläche zu analysieren. Unternehmen erhalten dadurch die Chance, Daten, die auf verschiedenen Clouds gespeichert sind, nahtlos miteinander zu verknüpfen und zu analysieren – ohne den bisherigen Aufwand des Datenaustauschs zwischen den Clouds. BigQuery Omni ebnet den Weg für eine noch nie dagewesene Leichtigkeit und Effizienz bei der Cloud-basierten Datenanalyse. Die Zeiten des mühsamen Datenverschiebens gehören der Vergangenheit an, denn BigQuery Omni macht die Zukunft der Datenanalyse über Cloud-Grenzen hinweg zugänglicher denn je.

MatthiasHert_Casual.jpg

Über mich

Cloud ermöglicht es Kunden, sich auf ihre Kernkompetenzen zu fokussieren, statt Aufwand in Aufbau und Betrieb von IT-Infrastruktur zu investieren. Deswegen brenne ich für das Thema Cloud.