Detaillierter Kursinhalt
Modul 01 - Aufgaben und Komponenten der Datentechnik
Themen:
- Die Rolle des Dateningenieurs
- Datenquellen versus Datensynchronisation
- Datenformate
- Optionen für Speicherlösungen in der Google Cloud
- Optionen für die Verwaltung von Metadaten in der Google Cloud
- Gemeinsame Nutzung von Datensätzen über Analytics Hub
Zielsetzungen:
- Erklären Sie die Rolle eines Dateningenieurs.
- die Unterschiede zwischen einer Datenquelle und einer Datensenke zu verstehen.
- Erklären Sie die verschiedenen Arten von Datenformaten.
- Erklären Sie die Optionen für Speicherlösungen in der Google Cloud.
- Erfahren Sie mehr über die Möglichkeiten der Metadatenverwaltung in Google Cloud.
- Verstehen Sie, wie Sie mit Analytics Hub problemlos Datensätze gemeinsam nutzen können.
- Verstehen, wie man Daten mit der Google Cloud-Konsole und/oder der gcloud CLI in BigQuery lädt.
Aktivitäten:
- Übung: Laden von Daten in BigQuery
Modul 02 - Datenreplikation und -migration
Themen:
- Replikations- und Migrationsarchitektur
- Das gcloud-Befehlszeilenwerkzeug
- Verschieben von Datensätzen
- Datastream
Zielsetzungen:
- Erklären Sie die grundlegende Datenreplikations- und Migrationsarchitektur der Google Cloud.
- die Optionen und Anwendungsfälle für das gcloud-Befehlszeilentool zu verstehen.
- Erläutern Sie die Funktionalität und die Anwendungsfälle für den Speicherübertragungsdienst.
- Erläutern Sie die Funktionen und Anwendungsfälle für die Transfer Appliance.
- Verstehen Sie die Funktionen und den Einsatz von Datastream.
Aktivitäten:
- Lab: Datastream: PostgreSQL Replikation auf BigQuery
Modul 03 - Das Muster der Pipeline für das Extrahieren und Laden von Daten
Themen:
- Architektur extrahieren und laden
- Das bq Kommandozeilenwerkzeug
- BigQuery-Datenübertragungsdienst
- BigLake
Zielsetzungen:
- Erläutern Sie das Grundlinienextrakt- und Lastarchitekturdiagramm.
- die Optionen des bq Kommandozeilenwerkzeugs zu verstehen.
- Erläutern Sie die Funktionen und Anwendungsfälle für den BigQuery Data Transfer Service.
- Erläutern Sie die Funktionalität und die Anwendungsfälle für BigLake als Nicht-Extract-Load-Muster.
Aktivitäten:
- Labor: BigLake: Qwik Start
Modul 04 - Das Muster der Pipeline für das Extrahieren, Laden und Transformieren von Daten
Themen:
- Architektur zum Extrahieren, Laden und Umwandeln (ELT)
- SQL-Skripterstellung und Zeitplanung mit BigQuery
- Datenformular
Zielsetzungen:
- Erläutern Sie das Grundschema der Extraktions-, Lade- und Transformationsarchitektur.
- Verstehen Sie eine gängige ELT-Pipeline in der Google Cloud.
- Erfahren Sie mehr über die SQL-Skripterstellung und die Planungsfunktionen von BigQuery.
- Erläutern Sie die Funktionen und Anwendungsfälle von Dataform.
Aktivitäten:
- Übung: Erstellen und Ausführen eines SQL-Workflows in Dataform
Modul 05 - Das Muster der Pipeline für das Extrahieren, Transformieren und Laden von Daten
Themen:
- Architektur des Extrahierens, Transformierens und Ladens (ETL)
- Google Cloud GUI-Tools für ETL-Datenpipelines
- Batch-Datenverarbeitung mit Dataproc
- Optionen für die Verarbeitung von Streaming-Daten
- Bigtable und Datenpipelines
Zielsetzungen:
- Erläutern Sie das Grundschema der Extraktions-, Transformations- und Ladearchitektur.
- Lernen Sie die GUI-Tools in Google Cloud kennen, die für ETL-Datenpipelines verwendet werden.
- Erläutern Sie die Batch-Datenverarbeitung mit Dataproc.
- Lernen Sie, Dataproc Serverless for Spark für ETL zu verwenden.
- Erläutern Sie die Möglichkeiten der Streaming-Datenverarbeitung.
- Erklären Sie, welche Rolle Bigtable in Datenpipelines spielt.
Aktivitäten:
- Übung: Dataproc Serverless für Spark verwenden, um BigQuery zu laden
- Übung: Erstellen einer Streaming-Datenpipeline für ein Echtzeit-Dashboard mit Dataflow
Modul 06 - Automatisierungstechniken
Themen:
- Automatisierungsmuster und Optionen für Pipelines
- Cloud Scheduler und Arbeitsabläufe
- Cloud-Komponist
- Cloud Run-Funktionen
- Eventarc
Zielsetzungen:
- Erklären Sie die Automatisierungsmuster und -optionen, die für Pipelines verfügbar sind.
- Erfahren Sie mehr über Cloud Scheduler und Workflows.
- Erfahren Sie mehr über Cloud Composer.
- Lernen Sie die Funktionen von Cloud Run kennen.
- Erläutern Sie die Funktionalität und die Anwendungsfälle der Automatisierung von Eventarc.
Aktivitäten:
- Übung: Verwenden von Cloud Run Functions zum Laden von BigQuery
Modul 07 - Einführung in die Datentechnik
Themen:
- Die Rolle des Dateningenieurs
- Herausforderungen der Datentechnik
- Einführung in BigQuery
- Data Lakes und Data Warehouses
- Transaktionsdatenbanken versus Data Warehouses
- Effiziente Partnerschaft mit anderen Datenteams
- Verwaltung von Datenzugang und Governance
- Aufbau von produktionsreifen Pipelines
- Google Cloud Kundenfallstudie
Zielsetzungen:
- Erörtern Sie die Herausforderungen der Datentechnik und wie der Aufbau von Datenpipelines in der Cloud dazu beiträgt, diese zu bewältigen.
- Überprüfen und verstehen Sie den Zweck eines Data Lake im Vergleich zu einem Data Warehouse und wann Sie welches einsetzen sollten.
Aktivitäten:
- Übung: BigQuery für die Analyse verwenden
Modul 08 - Aufbau eines Data Lake
Themen:
- Einführung in Data Lakes
- Datenspeicherung und ETL-Optionen in der Google Cloud
- Aufbau eines Data Lake mit Cloud Storage
- Sicherer Cloud-Speicher
- Alle Arten von Datentypen speichern
- Cloud SQL als Ihr OLTP-System
Zielsetzungen:
- Diskutieren Sie, warum Cloud Storage eine gute Option für den Aufbau eines Data Lake in der Google Cloud ist.
- Erläutern Sie, wie Sie Cloud SQL für einen relationalen Datensee verwenden können.
Aktivitäten:
- Übung: Laden von Taxidaten in Cloud SQL
Modul 09 - Aufbau eines Data Warehouse
Themen:
- Das moderne Data Warehouse
- Einführung in BigQuery
- Erste Schritte mit BigQuery
- Laden von Daten in BigQuery
- Erkundung von Schemata
- Entwurf des Schemas
- Verschachtelte und wiederholte Felder
- Optimierung mit Partitionierung und Clustering
Zielsetzungen:
- Erörterung der Anforderungen an ein modernes Lager.
- Erklären Sie, warum BigQuery die skalierbare Data-Warehousing-Lösung in der Google Cloud ist.
- Besprechung der Kernkonzepte von BigQuery und Überprüfung der Optionen zum Laden von Daten in BigQuery.
Aktivitäten:
- Übung: Arbeiten mit JSON- und Array-Daten in BigQuery
- Übung: Partitionierte Tabellen in BigQuery
Modul 10 - Einführung in die Erstellung von Batch-Datenpipelines
Themen:
- EL, ELT, ETL
- Überlegungen zur Qualität
- Möglichkeiten der Ausführung von Operationen in BigQuery
- Unzulänglichkeiten
- ETL zur Lösung von Datenqualitätsproblemen
Zielsetzungen:
- Überprüfen Sie verschiedene Methoden zum Laden von Daten in Ihre Data Lakes und Warehouses: EL, ELT und ETL.
Modul 11 - Ausführen von Spark auf Dataproc
Themen:
- Das Hadoop-Ökosystem
- Hadoop auf Dataproc ausführen
- Cloud-Speicher anstelle von HDFS
- Optimieren Sie Dataproc
Zielsetzungen:
- Überprüfen Sie das Hadoop-Ökosystem.
- Diskutieren Sie, wie Sie Ihre bestehenden Hadoop-Workloads mit Dataproc in die Cloud verlagern können.
- Erläutern Sie, wann Sie Cloud-Speicher anstelle von HDFS-Speicher verwenden würden.
- Erläutern Sie, wie Sie Dataproc-Aufträge optimieren können.
Aktivitäten:
- Übung: Ausführen von Apache Spark-Aufträgen auf Dataproc
Modul 12 - Serverlose Datenverarbeitung mit Dataflow
Themen:
- Einführung in den Datenfluss
- Gründe, warum Kunden Dataflow schätzen
- Datenfluss-Pipelines
- Aggregieren mit GroupByKey und Kombinieren
- Seitliche Eingänge und Fenster
- Datenfluss-Vorlagen
Zielsetzungen:
- Identifizieren Sie die Funktionen, die Kunden an Dataflow schätzen.
- Diskutieren Sie die Kernkonzepte von Dataflow.
- Überprüfen Sie die Verwendung von Dataflow-Vorlagen und SQL.
- Schreiben Sie eine einfache Dataflow-Pipeline und führen Sie sie sowohl lokal als auch in der Cloud aus.
- Identifizieren von Map- und Reduce-Operationen, Ausführen der Pipeline und Verwenden von Befehlszeilenparametern.
- Lesen Sie Daten aus BigQuery in Dataflow und verwenden Sie die Ausgabe einer Pipeline als Nebeneingang für eine andere Pipeline.
Aktivitäten:
- Lab: A Simple Dataflow Pipeline (Python/Java)
- Übung: MapReduce in Beam (Python/Java)
- Lab: Side Inputs (Python/Java)
Modul 13 - Verwalten von Datenpipelines mit Cloud Data Fusion und Cloud Composer
Themen:
- Visuelle Erstellung von Batch-Datenpipelines mit Cloud Data Fusion
- Komponenten
- UI-Übersicht
- Aufbau einer Pipeline
- Daten mit Wrangler erforschen
- Orchestrierung der Arbeit zwischen Google Cloud-Diensten mit Cloud Composer
- Apache Airflow-Umgebung
- DAGs und Operatoren
- Workflow-Planung
- Überwachung und Protokollierung
Zielsetzungen:
- Besprechen Sie, wie Sie Ihre Datenpipelines mit Cloud Data Fusion und Cloud Composer verwalten können.
- Fassen Sie zusammen, wie Cloud Data Fusion es Datenanalysten und ETL-Entwicklern ermöglicht, Daten zu verarbeiten und Pipelines auf visuelle Art und Weise zu erstellen.
- Beschreiben Sie, wie Cloud Composer bei der Orchestrierung der Arbeit über mehrere Google Cloud-Dienste hinweg helfen kann.
Aktivitäten:
- Übung: Aufbau und Ausführung eines Pipeline-Graphen in der Datenfusion
- Übung: Eine Einführung in Cloud Composer
Modul 14 - Einführung in die Verarbeitung von Streaming-Daten
Themen:
- Verarbeitung von Streaming-Daten
Zielsetzungen:
- Erklären Sie die Streaming-Datenverarbeitung.
- Identifizieren Sie die Google Cloud-Produkte und -Tools, die bei der Bewältigung von Streaming-Daten-Herausforderungen helfen können.
Modul 15 - Serverloses Messaging mit Pub/Sub
Themen:
- Einführung in Pub/Sub
- Pub/Sub push versus pull
- Veröffentlichung mit Pub/Sub-Code
Zielsetzungen:
- Beschreiben Sie den Pub/Sub-Dienst.
- Erklären Sie, wie Pub/Sub funktioniert.
- Simulation von Echtzeit-Sensordatenströmen mit Pub/Sub.
Aktivitäten:
- Übung: Streaming-Daten in Pub/Sub veröffentlichen
Modul 16 - Datenfluss-Streaming-Funktionen
Themen:
- Herausforderungen bei der Datenverarbeitung
- Datenfluss-Fensterung
Zielsetzungen:
- Beschreiben Sie den Dataflow-Dienst.
- Aufbau einer Stream-Verarbeitungspipeline für Live-Verkehrsdaten.
- Demonstration des Umgangs mit verspäteten Daten unter Verwendung von Wasserzeichen, Triggern und Akkumulation.
Aktivitäten:
- Übung: Streaming-Daten-Pipelines
Modul 17 - BigQuery- und Bigtable-Streaming-Funktionen mit hohem Durchsatz
Themen:
- Streaming in BigQuery und Visualisierung der Ergebnisse
- Streaming mit hohem Durchsatz mit Bigtable
- Optimierung der Bigtable-Leistung
Zielsetzungen:
- Beschreiben Sie, wie Sie mit BigQuery und Dashboards Ad-hoc-Analysen für Streaming-Daten durchführen können.
- Diskutieren Sie Bigtable als Lösung mit niedriger Latenzzeit.
- Beschreiben Sie, wie Sie eine Architektur für Bigtable erstellen und wie Sie Daten in Bigtable einlesen können.
- Hervorhebung der Leistungsüberlegungen für die betreffenden Dienste.
Aktivitäten:
- Labor: Streaming-Analytik und Dashboards
- Übung: Personalisierte E-Mail-Inhalte mit BigQuery Continuous Queries und Gemini generieren
- Übung: Streaming Data Pipelines in Bigtable
Modul 18 - Erweiterte BigQuery-Funktionen und -Leistung
Themen:
- Analytische Fensterfunktionen
- GIS-Funktionen
- Überlegungen zur Leistung
Zielsetzungen:
- Überprüfen Sie einige der erweiterten Analysefunktionen von BigQuery.
- Erörterung von Möglichkeiten zur Verbesserung der Abfrageleistung.
Aktivitäten:
- Übung: Optimieren Ihrer BigQuery-Abfragen für die Leistung