Data Analytics ist ein Prozess der Analyse von Rohdaten, um aussagekräftige Erkenntnisse zu gewinnen.... » weiterlesen
Azure Data Factory – was der neue Azure-Service kann und welche Vorteile er bietet.
Azure Data Factory ist ein moderner Cloud-basierter Datenintegrationsdienst, der die Entwicklung und Umwandlung von großen Datenmengen orchestriert und automatisiert. Der von Microsoft angebotene Dienst kommt im Kontext einer unternehmensweiten Analyseplattform zum Einsatz, die ebenfalls auf Microsoft-Technologien basiert.
Warum Azure Data Factory?
- Kopieren und Speicherung von Rohdaten in aussagekräftigen Datenspeichern (Data Lakes)
- Analyse und Transformation von Daten (mithilfe von Pipelines)
- Veröffentlichung und Versand organisierter Daten (für bessere geschäftliche Entscheidungen)
- Überwachen von Datenströmen
Data Factory als Wegbereiter für alle Cloud-Projekte
In fast jedem Cloud-Projekt müssen Datenbewegungen über verschiedene Netzwerke (On-Premise-Netzwerk und Cloud), aber auch über verschiedene Dienste (z. B. von und zu verschiedenen Azure-Speichern) durchgeführt werden. Geschwindigkeit und Effizienz im Netzwerkdatenverkehr sind von entscheidender Bedeutung.
Insbesondere für Unternehmen, die ihre ersten Schritte in der Cloud machen und folglich versuchen, On-Premise-Daten mit der Cloud zu verbinden, ist eine Data Factory wesentlich. Dazu verfügt Azure Data Factory über eine Integration Runtime Engine, einen Gateway Service, der sich On-Premise installieren lässt und eine performante und sichere Datenübertragung aus und in die Cloud gewährleistet.
Außerdem können Nutzende ihre transformierten Daten in Datenspeichern, z. B. Azure Synapse Analytics, veröffentlichen und für BI-Anwendungen (Business Intelligence) weiterverwenden.
Wir blicken genauer hin und erläutern die wichtigsten ADF Funktionen:
Azure Data Factory (ADF) ist ein Cloud-basierter Integrationsdienst zur Orchestrierung und Automatisierung von Datenbewegungen und Datentransformationen mit mehr als 90 wartungsfreien Konnektoren, die ohne zusätzliche Kosten integriert sind.
Über eine visuelle Oberfläche lassen sich auch ohne Code-Kenntnisse entsprechende Integrationsstrecken erstellen – wahlweise als klassischer „Extract-Transform-Load“ (ETL)-Prozess, oder in der für moderne Analyseszenarien eher üblichen Abfolge „Extract-Load-Transform“ (ELT).
Wenn gewünscht, kann dabei auch eigener Code zum Einsatz kommen.
Im Anschluss werden die Daten in einem für die Analyse optimierten Azure Data Lake gespeichert. Ebenso lassen sich die Daten direkt über Azure Synapse Analytics transformieren, analysieren und geschäftlich nutzen.
Ein solches Vorgehen bietet sich vor allem bei Echtzeitdaten bzw. -anwendungen, aber auch für Business Intelligence-Anwendungen im „klassischen“ Umfeld an.
Funktionen
Der Service ermöglicht den Aufbau von komplexen Workflows, die strukturierte und unstrukturierte Daten aus ganz unterschiedlichen Quellen zusammenführen und für die angestrebten Analyseziele transformieren. Abhängig vom aktuellen Bedarf lässt sich die Leistung beliebig skalieren.
Die Datenerfassung erfolgt mithilfe integrierter Konnektoren, um Hybriddaten aus z.B. unterschiedlichsten Big-Data-Quellen einzubinden. Dazu zählen beispielsweise Data-Warehouse-Lösungen auf Basis von SAP, Oracle, Teradata, Amazon Redshift oder Google BigQuery.
Ebenso lassen sich Daten aus Salesforce, Marketo, ServiceNow oder weiteren Azure-Diensten, sowie verschiedensten (No-)SQL-Datenbanken nahtlos in die Analyseplattform einbinden. Nicht zuletzt können auch Datenströme (Streams), beispielsweise aus Maschinensensoren (IoT-Devices), aufgenommen und in Echtzeit (Soft-Real-Time) weiterverarbeitet werden.
Positive Aspekte
- Kein Code bzw. „Low Code“ und keine Wartung erforderlich, um hybride ETL- und ELT-Pipelines in der visuellen Data Factory Umgebung zu erstellen
- Bei Bedarf ist das Einbinden von eigenem Code in die Beladungs-Pipelines möglich
- Kosteneffizientes und vollständig verwaltetes, serverloses Cloud-Datenintegrationstool, das nach Bedarf skaliert
- SQL-Server Integration Services (SSIS)-Integrationslaufzeit zur einfachen Wiederverwendung von SSIS-Paketen vor Ort in der Cloud unter Verwendung vertrauter SSIS-Tools
- Azure-Sicherheitsmaßnahmen für eine sorgenfreie Verbindung zu lokalen, Cloud-basierten und Software-as-a-Service (SaaS)-Anwendungen
Big Data als Chance begreifen, es ist höchste Zeit!
Heute ist dieser Service ein wichtiger Baustein in jedem Datenplattform- und Machine-Learning-Projekt.
Möchten auch Sie die Azure Cloud Services mit Azure Data Factory nutzen, um einen umfangreichen geschäftlichen Nutzen aus Ihren Rohdaten ziehen zu können? Kontaktieren Sie uns jederzeit gerne.