Data Engineering on Google Cloud Platform (DEGCP) – Details

Detaillierter Kursinhalt

Modul 01 - Aufgaben und Komponenten der Datentechnik

Themen:

  • Die Rolle des Dateningenieurs
  • Datenquellen versus Datensynchronisation
  • Datenformate
  • Optionen für Speicherlösungen in der Google Cloud
  • Optionen für die Verwaltung von Metadaten in der Google Cloud
  • Gemeinsame Nutzung von Datensätzen über Analytics Hub

Zielsetzungen:

  • Erklären Sie die Rolle eines Dateningenieurs.
  • die Unterschiede zwischen einer Datenquelle und einer Datensenke zu verstehen.
  • Erklären Sie die verschiedenen Arten von Datenformaten.
  • Erklären Sie die Optionen für Speicherlösungen in der Google Cloud.
  • Erfahren Sie mehr über die Möglichkeiten der Metadatenverwaltung in Google Cloud.
  • Verstehen Sie, wie Sie mit Analytics Hub problemlos Datensätze gemeinsam nutzen können.
  • Verstehen, wie man Daten mit der Google Cloud-Konsole und/oder der gcloud CLI in BigQuery lädt.

Aktivitäten:

  • Übung: Laden von Daten in BigQuery

Modul 02 - Datenreplikation und -migration

Themen:

  • Replikations- und Migrationsarchitektur
  • Das gcloud-Befehlszeilenwerkzeug
  • Verschieben von Datensätzen
  • Datastream

Zielsetzungen:

  • Erklären Sie die grundlegende Datenreplikations- und Migrationsarchitektur der Google Cloud.
  • die Optionen und Anwendungsfälle für das gcloud-Befehlszeilentool zu verstehen.
  • Erläutern Sie die Funktionalität und die Anwendungsfälle für den Speicherübertragungsdienst.
  • Erläutern Sie die Funktionen und Anwendungsfälle für die Transfer Appliance.
  • Verstehen Sie die Funktionen und den Einsatz von Datastream.

Aktivitäten:

  • Lab: Datastream: PostgreSQL Replikation auf BigQuery

Modul 03 - Das Muster der Pipeline für das Extrahieren und Laden von Daten

Themen:

  • Architektur extrahieren und laden
  • Das bq Kommandozeilenwerkzeug
  • BigQuery-Datenübertragungsdienst
  • BigLake

Zielsetzungen:

  • Erläutern Sie das Grundlinienextrakt- und Lastarchitekturdiagramm.
  • die Optionen des bq Kommandozeilenwerkzeugs zu verstehen.
  • Erläutern Sie die Funktionen und Anwendungsfälle für den BigQuery Data Transfer Service.
  • Erläutern Sie die Funktionalität und die Anwendungsfälle für BigLake als Nicht-Extract-Load-Muster.

Aktivitäten:

  • Labor: BigLake: Qwik Start

Modul 04 - Das Muster der Pipeline für das Extrahieren, Laden und Transformieren von Daten

Themen:

  • Architektur zum Extrahieren, Laden und Umwandeln (ELT)
  • SQL-Skripterstellung und Zeitplanung mit BigQuery
  • Datenformular

Zielsetzungen:

  • Erläutern Sie das Grundschema der Extraktions-, Lade- und Transformationsarchitektur.
  • Verstehen Sie eine gängige ELT-Pipeline in der Google Cloud.
  • Erfahren Sie mehr über die SQL-Skripterstellung und die Planungsfunktionen von BigQuery.
  • Erläutern Sie die Funktionen und Anwendungsfälle von Dataform.

Aktivitäten:

  • Übung: Erstellen und Ausführen eines SQL-Workflows in Dataform

Modul 05 - Das Muster der Pipeline für das Extrahieren, Transformieren und Laden von Daten

Themen:

  • Architektur des Extrahierens, Transformierens und Ladens (ETL)
  • Google Cloud GUI-Tools für ETL-Datenpipelines
  • Batch-Datenverarbeitung mit Dataproc
  • Optionen für die Verarbeitung von Streaming-Daten
  • Bigtable und Datenpipelines

Zielsetzungen:

  • Erläutern Sie das Grundschema der Extraktions-, Transformations- und Ladearchitektur.
  • Lernen Sie die GUI-Tools in Google Cloud kennen, die für ETL-Datenpipelines verwendet werden.
  • Erläutern Sie die Batch-Datenverarbeitung mit Dataproc.
  • Lernen Sie, Dataproc Serverless for Spark für ETL zu verwenden.
  • Erläutern Sie die Möglichkeiten der Streaming-Datenverarbeitung.
  • Erklären Sie, welche Rolle Bigtable in Datenpipelines spielt.

Aktivitäten:

  • Übung: Dataproc Serverless für Spark verwenden, um BigQuery zu laden
  • Übung: Erstellen einer Streaming-Datenpipeline für ein Echtzeit-Dashboard mit Dataflow

Modul 06 - Automatisierungstechniken

Themen:

  • Automatisierungsmuster und Optionen für Pipelines
  • Cloud Scheduler und Arbeitsabläufe
  • Cloud-Komponist
  • Cloud Run-Funktionen
  • Eventarc

Zielsetzungen:

  • Erklären Sie die Automatisierungsmuster und -optionen, die für Pipelines verfügbar sind.
  • Erfahren Sie mehr über Cloud Scheduler und Workflows.
  • Erfahren Sie mehr über Cloud Composer.
  • Lernen Sie die Funktionen von Cloud Run kennen.
  • Erläutern Sie die Funktionalität und die Anwendungsfälle der Automatisierung von Eventarc.

Aktivitäten:

  • Übung: Verwenden von Cloud Run Functions zum Laden von BigQuery

Modul 07 - Einführung in die Datentechnik

Themen:

  • Die Rolle des Dateningenieurs
  • Herausforderungen der Datentechnik
  • Einführung in BigQuery
  • Data Lakes und Data Warehouses
  • Transaktionsdatenbanken versus Data Warehouses
  • Effiziente Partnerschaft mit anderen Datenteams
  • Verwaltung von Datenzugang und Governance
  • Aufbau von produktionsreifen Pipelines
  • Google Cloud Kundenfallstudie

Zielsetzungen:

  • Erörtern Sie die Herausforderungen der Datentechnik und wie der Aufbau von Datenpipelines in der Cloud dazu beiträgt, diese zu bewältigen.
  • Überprüfen und verstehen Sie den Zweck eines Data Lake im Vergleich zu einem Data Warehouse und wann Sie welches einsetzen sollten.

Aktivitäten:

  • Übung: BigQuery für die Analyse verwenden

Modul 08 - Aufbau eines Data Lake

Themen:

  • Einführung in Data Lakes
  • Datenspeicherung und ETL-Optionen in der Google Cloud
  • Aufbau eines Data Lake mit Cloud Storage
  • Sicherer Cloud-Speicher
  • Alle Arten von Datentypen speichern
  • Cloud SQL als Ihr OLTP-System

Zielsetzungen:

  • Diskutieren Sie, warum Cloud Storage eine gute Option für den Aufbau eines Data Lake in der Google Cloud ist.
  • Erläutern Sie, wie Sie Cloud SQL für einen relationalen Datensee verwenden können.

Aktivitäten:

  • Übung: Laden von Taxidaten in Cloud SQL

Modul 09 - Aufbau eines Data Warehouse

Themen:

  • Das moderne Data Warehouse
  • Einführung in BigQuery
  • Erste Schritte mit BigQuery
  • Laden von Daten in BigQuery
  • Erkundung von Schemata
  • Entwurf des Schemas
  • Verschachtelte und wiederholte Felder
  • Optimierung mit Partitionierung und Clustering

Zielsetzungen:

  • Erörterung der Anforderungen an ein modernes Lager.
  • Erklären Sie, warum BigQuery die skalierbare Data-Warehousing-Lösung in der Google Cloud ist.
  • Besprechung der Kernkonzepte von BigQuery und Überprüfung der Optionen zum Laden von Daten in BigQuery.

Aktivitäten:

  • Übung: Arbeiten mit JSON- und Array-Daten in BigQuery
  • Übung: Partitionierte Tabellen in BigQuery

Modul 10 - Einführung in die Erstellung von Batch-Datenpipelines

Themen:

  • EL, ELT, ETL
  • Überlegungen zur Qualität
  • Möglichkeiten der Ausführung von Operationen in BigQuery
  • Unzulänglichkeiten
  • ETL zur Lösung von Datenqualitätsproblemen

Zielsetzungen:

  • Überprüfen Sie verschiedene Methoden zum Laden von Daten in Ihre Data Lakes und Warehouses: EL, ELT und ETL.

Modul 11 - Ausführen von Spark auf Dataproc

Themen:

  • Das Hadoop-Ökosystem
  • Hadoop auf Dataproc ausführen
  • Cloud-Speicher anstelle von HDFS
  • Optimieren Sie Dataproc

Zielsetzungen:

  • Überprüfen Sie das Hadoop-Ökosystem.
  • Diskutieren Sie, wie Sie Ihre bestehenden Hadoop-Workloads mit Dataproc in die Cloud verlagern können.
  • Erläutern Sie, wann Sie Cloud-Speicher anstelle von HDFS-Speicher verwenden würden.
  • Erläutern Sie, wie Sie Dataproc-Aufträge optimieren können.

Aktivitäten:

  • Übung: Ausführen von Apache Spark-Aufträgen auf Dataproc

Modul 12 - Serverlose Datenverarbeitung mit Dataflow

Themen:

  • Einführung in den Datenfluss
  • Gründe, warum Kunden Dataflow schätzen
  • Datenfluss-Pipelines
  • Aggregieren mit GroupByKey und Kombinieren
  • Seitliche Eingänge und Fenster
  • Datenfluss-Vorlagen

Zielsetzungen:

  • Identifizieren Sie die Funktionen, die Kunden an Dataflow schätzen.
  • Diskutieren Sie die Kernkonzepte von Dataflow.
  • Überprüfen Sie die Verwendung von Dataflow-Vorlagen und SQL.
  • Schreiben Sie eine einfache Dataflow-Pipeline und führen Sie sie sowohl lokal als auch in der Cloud aus.
  • Identifizieren von Map- und Reduce-Operationen, Ausführen der Pipeline und Verwenden von Befehlszeilenparametern.
  • Lesen Sie Daten aus BigQuery in Dataflow und verwenden Sie die Ausgabe einer Pipeline als Nebeneingang für eine andere Pipeline.

Aktivitäten:

  • Lab: A Simple Dataflow Pipeline (Python/Java)
  • Übung: MapReduce in Beam (Python/Java)
  • Lab: Side Inputs (Python/Java)

Modul 13 - Verwalten von Datenpipelines mit Cloud Data Fusion und Cloud Composer

Themen:

  • Visuelle Erstellung von Batch-Datenpipelines mit Cloud Data Fusion
    • Komponenten
    • UI-Übersicht
    • Aufbau einer Pipeline
    • Daten mit Wrangler erforschen
  • Orchestrierung der Arbeit zwischen Google Cloud-Diensten mit Cloud Composer
    • Apache Airflow-Umgebung
    • DAGs und Operatoren
    • Workflow-Planung
    • Überwachung und Protokollierung

Zielsetzungen:

  • Besprechen Sie, wie Sie Ihre Datenpipelines mit Cloud Data Fusion und Cloud Composer verwalten können.
  • Fassen Sie zusammen, wie Cloud Data Fusion es Datenanalysten und ETL-Entwicklern ermöglicht, Daten zu verarbeiten und Pipelines auf visuelle Art und Weise zu erstellen.
  • Beschreiben Sie, wie Cloud Composer bei der Orchestrierung der Arbeit über mehrere Google Cloud-Dienste hinweg helfen kann.

Aktivitäten:

  • Übung: Aufbau und Ausführung eines Pipeline-Graphen in der Datenfusion
  • Übung: Eine Einführung in Cloud Composer

Modul 14 - Einführung in die Verarbeitung von Streaming-Daten

Themen:

  • Verarbeitung von Streaming-Daten

Zielsetzungen:

  • Erklären Sie die Streaming-Datenverarbeitung.
  • Identifizieren Sie die Google Cloud-Produkte und -Tools, die bei der Bewältigung von Streaming-Daten-Herausforderungen helfen können.

Modul 15 - Serverloses Messaging mit Pub/Sub

Themen:

  • Einführung in Pub/Sub
  • Pub/Sub push versus pull
  • Veröffentlichung mit Pub/Sub-Code

Zielsetzungen:

  • Beschreiben Sie den Pub/Sub-Dienst.
  • Erklären Sie, wie Pub/Sub funktioniert.
  • Simulation von Echtzeit-Sensordatenströmen mit Pub/Sub.

Aktivitäten:

  • Übung: Streaming-Daten in Pub/Sub veröffentlichen

Modul 16 - Datenfluss-Streaming-Funktionen

Themen:

  • Herausforderungen bei der Datenverarbeitung
  • Datenfluss-Fensterung

Zielsetzungen:

  • Beschreiben Sie den Dataflow-Dienst.
  • Aufbau einer Stream-Verarbeitungspipeline für Live-Verkehrsdaten.
  • Demonstration des Umgangs mit verspäteten Daten unter Verwendung von Wasserzeichen, Triggern und Akkumulation.

Aktivitäten:

  • Übung: Streaming-Daten-Pipelines

Modul 17 - BigQuery- und Bigtable-Streaming-Funktionen mit hohem Durchsatz

Themen:

  • Streaming in BigQuery und Visualisierung der Ergebnisse
  • Streaming mit hohem Durchsatz mit Bigtable
  • Optimierung der Bigtable-Leistung

Zielsetzungen:

  • Beschreiben Sie, wie Sie mit BigQuery und Dashboards Ad-hoc-Analysen für Streaming-Daten durchführen können.
  • Diskutieren Sie Bigtable als Lösung mit niedriger Latenzzeit.
  • Beschreiben Sie, wie Sie eine Architektur für Bigtable erstellen und wie Sie Daten in Bigtable einlesen können.
  • Hervorhebung der Leistungsüberlegungen für die betreffenden Dienste.

Aktivitäten:

  • Labor: Streaming-Analytik und Dashboards
  • Übung: Personalisierte E-Mail-Inhalte mit BigQuery Continuous Queries und Gemini generieren
  • Übung: Streaming Data Pipelines in Bigtable

Modul 18 - Erweiterte BigQuery-Funktionen und -Leistung

Themen:

  • Analytische Fensterfunktionen
  • GIS-Funktionen
  • Überlegungen zur Leistung

Zielsetzungen:

  • Überprüfen Sie einige der erweiterten Analysefunktionen von BigQuery.
  • Erörterung von Möglichkeiten zur Verbesserung der Abfrageleistung.

Aktivitäten:

  • Übung: Optimieren Ihrer BigQuery-Abfragen für die Leistung