Building Batch Data Pipelines on Google Cloud (BBDP) – Details

Detaillierter Kursinhalt

Modul 1 - Wann sollte man Batch-Datenpipelines wählen?

Beschreibung: Sie lernen die entscheidende Rolle eines Dateningenieurs bei der Entwicklung und Wartung von Batch-Datenpipelines kennen, verstehen deren Kernkomponenten und Lebenszyklus und analysieren häufige Herausforderungen bei der Batch-Datenverarbeitung. Außerdem lernen Sie die wichtigsten Google Cloud-Dienste kennen, die diese Herausforderungen bewältigen.

Themen:

  • Batch-Datenpipelines und ihre Anwendungsfälle
  • Verarbeitung und gemeinsame Herausforderungen

Aktivitäten:

  • Quiz

Modul 2 - Entwurf und Aufbau von Batch-Datenpipelines

Beschreibung: Sie entwerfen skalierbare Batch-Datenpipelines für die Aufnahme und Transformation großer Datenmengen. Außerdem optimieren Sie Batch-Aufträge für hohen Durchsatz und Kosteneffizienz, indem Sie verschiedene Techniken zur Ressourcenverwaltung und Leistungsoptimierung anwenden.

Themen:

  • Entwurf von Batch-Pipelines
  • Großflächige Datentransformationen
  • Datenfluss und Serverless für Apache Spark
  • Datenverbindungen und Orchestrierung
  • Ausführen einer Apache Spark-Pipeline
  • Optimieren der Batch-Pipeline-Leistung

Aktivitäten:

  • Quiz
  • Übung: Erstellen einer einfachen Batch-Datenpipeline mit Serverless für Apache Spark
  • Übung: Erstellen einer einfachen Batch-Datenpipeline mit Dataflow Job Builder UI

Modul 3 - Kontrolle der Datenqualität in Batch-Datenpipelines

Beschreibung: Sie entwickeln Datenvalidierungsregeln und Bereinigungslogik, um die Datenqualität in Batch-Pipelines sicherzustellen. Außerdem implementieren Sie Strategien für die Verwaltung der Schemaentwicklung und die Durchführung der Datendeduplizierung in großen Datensätzen.

Themen:

  • Validierung und Bereinigung von Batch-Daten
  • Fehler protokollieren und auswerten
  • Schemaentwicklung für Batch-Pipelines
  • Datenintegrität und Duplizierung
  • Deduplizierung mit Serverless für Apache Spark
  • Deduplizierung mit Dataflow

Aktivitäten:

  • Quiz
  • Übung: Validieren der Datenqualität in einer Batch-Pipeline mit Serverless für Apache Spark

Modul 4 - Orchestrierung und Überwachung von Batch-Datenpipelines

Beschreibung: Sie orchestrieren komplexe Batch-Datenpipeline-Workflows für eine effiziente Planung und Verlaufsverfolgung. Außerdem implementieren Sie eine robuste Fehlerbehandlung, Überwachung und Beobachtbarkeit für Batch-Daten-Pipelines.

Themen:

  • Orchestrierung für die Stapelverarbeitung
  • Cloud-Komponist
  • Vereinheitlichte Beobachtbarkeit
  • Warnmeldungen und Fehlerbehebung
  • Visuelles Pipeline-Management
  • Herzlichen Glückwunsch! Zusammenfassung des Kurses

Aktivitäten:

  • Quiz
  • Übung: Aufbau von Batch-Pipelines in der Cloud Data Fusion