Kursüberblick
In diesem Kurs für Fortgeschrittene lernen Sie, robuste Batch-Datenpipelines auf Google Cloud zu entwerfen, zu erstellen und zu optimieren. Über die grundlegende Datenverarbeitung hinaus lernen Sie umfangreiche Datentransformationen und eine effiziente Workflow-Orchestrierung kennen, die für zeitnahe Business Intelligence und kritische Berichte unerlässlich sind.
Sie erhalten praktische Übungen zur Implementierung von Dataflow für Apache Beam und Serverless für Apache Spark (Dataproc Serverless) und befassen sich mit wichtigen Überlegungen zur Datenqualität, Überwachung und Alarmierung, um die Zuverlässigkeit der Pipeline und die operative Exzellenz sicherzustellen. Grundlegende Kenntnisse in Data Warehousing, ETL/ELT, SQL, Python und Google Cloud-Konzepten werden empfohlen.
Zielgruppe
- Daten-Ingenieure
- Datenanalysten
Zertifizierungen
Empfohlenes Training für die Zertifizierung zum:
Voraussetzungen
- Grundkenntnisse in Data Warehousing und ETL/ELT-Konzepten
- Grundlegende SQL-Kenntnisse
- Grundlegende Programmierkenntnisse (Python empfohlen)
- Vertrautheit mit gcloud CLI und der Google Cloud-Konsole
- Vertrautheit mit den wichtigsten Google Cloud-Konzepten und -Diensten
Kursziele
- Bestimmen Sie, ob Batch-Datenpipelines die richtige Wahl für Ihren geschäftlichen Anwendungsfall sind.
- Entwerfen und Erstellen skalierbarer Batch-Datenpipelines für die Aufnahme und Transformation großer Datenmengen.
- Implementierung von Datenqualitätskontrollen in Batch-Pipelines zur Gewährleistung der Datenintegrität.
- Orchestrierung, Verwaltung und Überwachung von Batch-Datenpipeline-Workflows, Implementierung von Fehlerbehandlung und Beobachtbarkeit mit Hilfe von Protokollierungs- und Überwachungstools.
Dieser Text wurde automatisiert übersetzt. Um den englischen Originaltext anzuzeigen, klicken Sie bitte hier.