In der heutigen Welt kann der Begriff "Daten" mehrere Bedeutungen und Möglichkeiten haben, sie zu extrahieren oder zu interpretieren. Aus diesem Grund verfügt Google Cloud Platform (GCP) über drei wichtige Produkte im Bereich der Datenverarbeitung und des Warehousing. Dataproc, Dataflow und Dataprep bieten seinen Kunden eine Vielzahl von ETL-Lösungen für unterschiedliche Anforderungen.
Dataproc, Dataflow und Dataprep sind drei verschiedene Teile des neuen Zeitalters der Datenverarbeitungstools in der Cloud. Sie erfüllen unterschiedliche Aufgaben, sind jedoch miteinander verbunden.
Dataproc ist ein Google Cloud-Produkt mit Data Science/ML-Dienst für Spark und Hadoop. Im Vergleich dazu verfolgt Dataflow eine Batch- und Stream-Verarbeitung von Daten. Es erstellt eine neue Pipeline für die Datenverarbeitung und Ressourcen, die nach Bedarf produziert oder entfernt werden. Dataprep hingegen ist UI-gesteuert, skaliert nach Bedarf und ist vollständig automatisiert.
In diesem Blog zum Vergleich von Dataproc, Dataflow und Dataprep werde ich Ihnen einen Eindruck davon vermitteln, wie sich diese drei Datenverarbeitungstools voneinander unterscheiden.
Was ist Dataproc? Seine Eigenschaften
Ein kurzer historischer Rückblick: 2004 veröffentlichte Google sein Forschungspapier über MapReduce. Seitdem hat sich Hadoop zu einem wichtigen Akteur in der Welt der Big Data entwickelt.
Im Jahr 2014 veröffentlichte Apache Spark, ein Open-Source-Framework für Cluster-Computing.
Spark verfügt über ein robustes Modul für die Arbeit auf einer ganzen Gruppe von Clustern mit Datenparallelität. Bald wurde Apache Spark populär und galt als Alternative zu Hadoop.
Viele Unternehmen begannen, Spark und Hadoop gemeinsam zu nutzen, was jedoch zu Overhead und verwirrenden Konfigurationen führte. Dies erwies sich als kompliziert und kostspielig.
Selbst wenn Sie einen bestimmten Cluster nicht für Ihre Big Data verwenden möchten, müssen Sie dafür bezahlen. Laut GCP können Sie Ihre gesamte Spark/Hadoop-Installation auf vollständig verwaltete Dienste migrieren. Es erstellt mechanisch Cluster und verwaltet Ihren Cluster in Dataflow.
Es verfügt über ein integriertes Berichtssystem, und - was am wichtigsten ist - es kann den Cluster bei Bedarf auch herunterfahren oder entfernen.
Merkmale:
- Mit Ihrem bestehenden MapReduce können Sie jeden Tag eine riesige Datenmenge verarbeiten, ohne sich um den Overhead zu kümmern.
- Mit dem eingebauten Überwachungssystem können Sie Ihre Clusterdaten an Ihre Anwendungen übertragen. Sie können schnelle Berichte vom System erhalten und haben außerdem die Möglichkeit, Daten in Googles BigQuery zu speichern.
- Schnelles Starten und Löschen von kleineren Clustern, die im Blob-Speicher gespeichert sind, je nach Bedarf mit Spark (Spark SQL, PySpark, Spark Shell).
- Spark-Bibliotheken für maschinelles Lernen und Data Science zum Anpassen und Ausführen von Klassifizierungsalgorithmen.
Was ist Dataflow? Seine Merkmale
Die primären Datenverarbeitungstechniken wie ETL werden bei der Optimierung Ihrer Daten ausgelassen. Laut Google kann Dataflow die Batch- und Stream-Verarbeitung von Daten verwalten und betreiben.
Das Hauptziel von Dataflow ist die Vereinfachung von Big Data. Die Programmier- und Ausführungs-Frameworks werden zusammengeführt, um eine Parallelisierung zu erreichen. In Dataflow werden keine Clusterdaten ungenutzt gelassen. Stattdessen wird der Cluster kontinuierlich überwacht und umgestaltet (je nach dem verwendeten Algorithmus).
Dataflow ermöglicht Apache Beam-Aufgaben mit allen eingebauten Funktionen. Außerdem kann Dataflow auf der Google Cloud Platform ausgeführt werden, was für andere Tools schwerfällig sein kann.
Merkmale:
ETL (Extrahieren, Transformieren und Laden) von Daten in mehrere Data Warehouses zur gleichen Zeit.
Dataflow wird als MapReduce-Ersatz betrachtet, um eine große Anzahl von Parallelisierungsaufgaben zu bewältigen.
Es kann Echtzeit-, Benutzer-, Management-, Finanz- oder Einzelhandelsverkaufsdaten scannen.
Verarbeitet immense Datenmengen für Forschung und Vorhersagen mit Data-Science-Techniken. Zum Beispiel Genomik-, Wetter- und Finanzdaten.
Was ist Dataprep? Seine Merkmale
Dataprep wurde entwickelt, um drei Hauptprobleme zu lösen, nämlich fehlende Datenvisualisierung, redundante Daten und langsame Verarbeitung. Mit Dataprep können Benutzer Daten visuell untersuchen, indem sie die Datei in CSV, JSON oder in ein grafisches Tabellenformat umwandeln.
Dataprep kann problemlos mit Clustern und Datensätzen in der Größe von mehreren TB umgehen. Dataprep wird nur als Medium für die Verarbeitung von Daten zur weiteren Verwendung verwendet, z. B. in BigQuery.
Mit dem Ausmaß der Datennutzung tritt manchmal ein Sicherheitsproblem auf. Daher bietet Google Cloud Dataprep ein eigenes Identitäts- und Zugangsmanagement.
Merkmale:
- Man kann den Datensatz vorbereiten, indem man die redundanten Daten mit Hilfe von ML und Data Science entfernt.
- Sie können Rohdaten in eine visuelle Darstellung umwandeln, z. B. in Diagramme und Tabellen.
- Man kann die Sicherheit durch eine reduzierte Exposition des Datensatzes unter Kontrolle halten.
Unterschied zwischen Dataproc, Dataflow und Dataprep
Dataproc unterstützt die manuelle Bereitstellung in Clustern, während Dataflow die automatische Bereitstellung in Clustern unterstützt. Dataprep hilft bei der Vorbereitung und Bereinigung der Daten für die künftige Verwendung.
Wenn Systeme von Hadoop abhängig sind, ist es ratsam, Dataproc gegenüber Dataflow oder Dataprep zu wählen. Dataproc wurde als Erweiterungsdienst für Hadoop entwickelt.
Wenn man einen praktischen Dev-ops-Ansatz bevorzugt, sollte man Dataproc wählen. Wenn Sie dagegen einen serverlosen Ansatz bevorzugen, dann wählen Sie Dataflow. Dataprep hingegen ist UI-gesteuert.
Wie wir bereits gesehen haben, ziehen viele Dataflow gegenüber Dataproc und Dataprep vor. Laut G2-Benutzerbewertungen sagen viele, dass Dataproc im Vergleich zu Dataflow einfacher zu bedienen ist. Im Gegensatz dazu wird Dataprep nur als Datenverarbeitungswerkzeug gesehen.
Die Echtzeit-Datensammlung mit der Hadoop- und Spark-Integrationsfunktion ist in Dataproc stärker ausgeprägt. Der Data Lake, die Datenerfassung, die Datenbereinigung, die Cloud und die Workload-Verarbeitung werden bei Dataflow hoch bewertet. Visuelle Analysen und die Verarbeitung von Daten mit Hilfe von Dataprep werden als sein Pluspunkt angesehen.
In Bezug auf die Portabilität verschmilzt Dataflow Programmier- und Ausführungsmodelle. Auf diese Weise erreicht er eine Parallelisierung der Daten und ist portabler als Dataproc und Dataprep.
Ähnlichkeiten zwischen Dataproc, Dataflow und Dataprep
Beim Vergleich von Dataproc, Dataflow und Dataprep gibt es einige Gemeinsamkeiten, die es gibt:
- Es ist offensichtlich, dass es sich bei allen drei um Produkte von Google Cloud handelt.
- Die Preisgestaltung ist bei allen drei Produkten gleich, d.h. neue Kunden erhalten in den ersten 90 Tagen ihrer Testphase 300 $ an kostenlosen Credits für Dataproc, Dataflow oder Dataprep.
- Der Support für alle drei Produkte ist gleichwertig.
- Alle werden als Big Data-Verarbeitung und -Verteilung kategorisiert.
Fazit
In diesem Blog haben wir zwischen GCP Dataproc, Dataflow und Dataprep unterschieden. Alle sind gleichwertig in der Datenverarbeitung, -bereinigung, ETL und -verteilung.
Sie gehen auf die individuellen Bedürfnisse ein, d.h. wenn Sie Abhängigkeiten von Hadoop/Apache-Diensten haben, dann ist es klar, dass man Dataproc wählen sollte.
Auch wenn man keine Hadoop/Apache-Abhängigkeiten hat, sondern einen manuellen Ansatz zur Big-Data-Verarbeitung wählen möchte, kann man sich für Dataproc entscheiden.
Wenn man jedoch die Vorteile der Premium-Dienste von Google für die Datenverarbeitung und -verteilung in der Cloud nutzen und sich gleichzeitig nicht mit den Feinheiten befassen möchte, sollte man sich für Dataflow entscheiden.
Wenn es Ihnen nur darum geht, Anomalien oder Redundanzen in den Daten zu finden, wählen Sie Dataprep. Es ist auch in andere hochwertige Google Cloud-Produkte integriert.
Um die Vorteile dieser drei Google Cloud-Produkte nutzen zu können, muss man seine eigenen Bedürfnisse kennen. Alle sind für spezifische Anforderungen gedacht und für Unternehmen jeder Größe einfach zu nutzen.