Gesichtserkennung mit Microsoft Face API: Zeig mir dein Gesicht – und die Maschine sagt dir wer... » weiterlesen
Das Cloud Data Warehouse von heute muss mehr unterstützen als herkömmliche Berichte und Dashboards und die dahinterstehenden Analystenteams. Es muss Ad-hoc- und interaktive Analysen sowohl für Batch- als auch für Streaming-Daten für 100- bis 1000-mal mehr Nutzende unterstützen, da Unternehmen operative Analysen direkt an ihre Angestellten weitergeben und ihren Kunden Self-Service-Analysen anbieten. Außerdem müssen sie Data Engineers und den Lebenszyklus der Datenentwicklung unterstützen. All das führt zu veränderten Anforderungen an das Cloud Data Warehouse.
Aus diesem Grund müssen Cloud Data Warehouses viel mehr bieten als die elastische Skalierbarkeit und Einfachheit, die die Data Warehouses der ersten Generation bieten. Sie müssen auch die Leistung, Skalierbarkeit, Kosteneffizienz und Agilität um eine Größenordnung verbessern, um diese neuen Benutzer:innen und ihre Analysen zu unterstützen. Heute lauten die Anforderungen an das Cloud Data Warehouse:
- 100% SQL: SQL ist de facto die Sprache der Daten, insbesondere für Data Analysts und Data Engineers. Jede Aufgabe, von ELT bis zu Abfragen beliebiger Daten, sollte in SQL durchführbar sein.
- Abfragen im Sekundenbereich: Ad-hoc-Analysen, interaktive Analysen durch Beschäftigte und Self-Service-Analysen durch Kunden erfordern Abfragen, die in ein paar Sekunden oder weniger ausgeführt werden.
- Gigabyte-Petabyte-Größe: Die neueren Datentypen - aus Kundeninteraktionen, vernetzten Geräten oder neueren Anwendungen - sind im Vergleich zu den Daten aus herkömmlichen Anwendungen und Transaktionen riesig und wachsen viel schneller. Die meisten Unternehmen haben Daten im Terabyte-Bereich, einige sogar im Petabyte-Bereich.
- Elastische Skalierung: Abfrage-Workloads sind weniger vorhersehbar, so dass eine elastische Skalierung sowohl für die Effizienz als auch für Service Level Agreements (SLA) sehr viel wichtiger ist.
- Native Unterstützung für semistrukturierte Daten.
- Native ELT-Unterstützung mit SQL: Damit Data Engineers neue Analysen innerhalb von Stunden oder Tagen erstellen können, müssen sie in der Lage sein, ihre eigenen Daten vollständig in SQL zu extrahieren, zu laden und umzuwandeln (ELT), ohne auf ein separates Team warten zu müssen.
- Hohe Gleichzeitigkeit von Benutzer:innen und Abfragen: Analysen werden heute für viel größere Gruppen von Angestellten und Endkunden bereitgestellt als für die traditionellen Analystenteams. Dies kann die Unterstützung von Hunderten bis Tausenden von gleichzeitigen Nutzenden und Abfragen erfordern.
- Isolierung von Workloads: Im Gegensatz zur Berichterstellung, die jederzeit im Batch-Verfahren erfolgen kann, müssen mehrere Workloads und Nutzende isoliert werden, um sicherzustellen, dass SLAs mit hoher Priorität und nahezu in Echtzeit erfüllt werden, und um Workloads voreinander zu schützen.
- Einfachheit für Data Engineers und DataOps: Data Warehouse-Implementierungen können nicht mehr auf eine Weise gesteuert werden, die Änderungen zur Unterstützung neuer Datenanforderungen verlangsamt. Cloud Data Warehouses müssen DataOps auf eine Art und Weise unterstützen, die Data Engineers mehr Kontrolle bietet und schnellere Zykluszeiten für die Datenanalyse ermöglicht.
- Kosteneffizienz: Die Kosten müssen um das 10-fache oder mehr sinken, um Analysen für 10-100-mal mehr Benutzer:innen zu unterstützen, die 10-mal oder mehr Daten verbrauchen.
Die früheren Generationen von Cloud Data Warehouses erfüllen nicht alle diese Anforderungen. Diejenigen mit entkoppeltem Speicher und Rechenleistung sind SQL-nativ und bieten eine elastische Skalierung. Außerdem bieten sie durch Caching eine angemessene Leistung für Berichte und andere sich wiederholende Abfragen. Sie bieten jedoch nicht die Art von Leistung oder Effizienz, die für Ad-hoc-, interaktive, betriebliche oder kundenorientierte Analysen benötigt wird, bei denen das Caching nicht so hilfreich ist.
Die in diesen Benchmarks implizierten Kosten sind zu hoch, insbesondere wenn Unternehmen Petabytes an Daten erreichen. Mitarbeiter- und kundenorientierte Analysen sowie die Automatisierung erfordern viel schnellere und kostengünstigere Analysen. Die meisten Menschen erwarten Daten in ein paar Sekunden oder weniger, wenn sie Entscheidungen nahezu in Echtzeit treffen müssen. 50 % der Menschen erwarten sogar, dass mobile Anwendungen innerhalb von weniger als 2 Sekunden zurückkehren.
Um all diesen Anforderungen gerecht zu werden, muss die moderne entkoppelte Speicher-Rechen-Architektur neu konzipiert werden, um drei wesentliche Leistungs- und Effizienzbeschränkungen zu beseitigen:
- Datenzugriff: Die meisten Cloud Data Warehouses rufen ganze Segmente oder Partitionen von Daten über das Netzwerk ab, obwohl das Netzwerk der größte Engpass ist. In AWS zum Beispiel transportieren die Netzwerke mit 10, 25 oder 100 Gbit/s (Gigabit pro Sekunde) höchstens 1, 2,5 oder 10 Gigabyte (GB) pro Sekunde. Bei der Arbeit mit Terabytes an Daten dauert der Datenzugriff mehrere Sekunden. Der Abruf exakter Datenbereiche anstelle größerer Segmente kann die Zugriffszeiten um das Zehnfache oder mehr verkürzen.
- Abfrageausführung: Die Optimierung von Abfragen macht einen großen Unterschied in der Leistung. Den meisten Cloud Data Warehouses fehlen jedoch viele bewährte Optimierungstechniken - von der Indizierung bis zur kostenbasierten Optimierung.
- Recheneffizienz: Die Entkopplung von Speicher- und Rechenarchitekturen ermöglichten es den Anbietern, eine nahezu unbegrenzte Skalierung zu nutzen, um die Leistung zu verbessern, anstatt die Effizienz zu steigern.
Wenn auch Sie diese Anforderungen an Ihr künftiges Cloud Data Warehouse stellen, dann vereinbaren Sie sich jetzt einen Termin!
Sie wollen noch mehr zum Thema Cloud Data Warehouse erfahren? Dann klicken Sie hier.