Detaillierter Kursinhalt
Modul 1 - Wann sollte man Batch-Datenpipelines wählen?
Beschreibung: Sie lernen die entscheidende Rolle eines Dateningenieurs bei der Entwicklung und Wartung von Batch-Datenpipelines kennen, verstehen deren Kernkomponenten und Lebenszyklus und analysieren häufige Herausforderungen bei der Batch-Datenverarbeitung. Außerdem lernen Sie die wichtigsten Google Cloud-Dienste kennen, die diese Herausforderungen bewältigen.
Themen:
- Batch-Datenpipelines und ihre Anwendungsfälle
- Verarbeitung und gemeinsame Herausforderungen
Aktivitäten:
- Quiz
Modul 2 - Entwurf und Aufbau von Batch-Datenpipelines
Beschreibung: Sie entwerfen skalierbare Batch-Datenpipelines für die Aufnahme und Transformation großer Datenmengen. Außerdem optimieren Sie Batch-Aufträge für hohen Durchsatz und Kosteneffizienz, indem Sie verschiedene Techniken zur Ressourcenverwaltung und Leistungsoptimierung anwenden.
Themen:
- Entwurf von Batch-Pipelines
- Großflächige Datentransformationen
- Datenfluss und Serverless für Apache Spark
- Datenverbindungen und Orchestrierung
- Ausführen einer Apache Spark-Pipeline
- Optimieren der Batch-Pipeline-Leistung
Aktivitäten:
- Quiz
- Übung: Erstellen einer einfachen Batch-Datenpipeline mit Serverless für Apache Spark
- Übung: Erstellen einer einfachen Batch-Datenpipeline mit Dataflow Job Builder UI
Modul 3 - Kontrolle der Datenqualität in Batch-Datenpipelines
Beschreibung: Sie entwickeln Datenvalidierungsregeln und Bereinigungslogik, um die Datenqualität in Batch-Pipelines sicherzustellen. Außerdem implementieren Sie Strategien für die Verwaltung der Schemaentwicklung und die Durchführung der Datendeduplizierung in großen Datensätzen.
Themen:
- Validierung und Bereinigung von Batch-Daten
- Fehler protokollieren und auswerten
- Schemaentwicklung für Batch-Pipelines
- Datenintegrität und Duplizierung
- Deduplizierung mit Serverless für Apache Spark
- Deduplizierung mit Dataflow
Aktivitäten:
- Quiz
- Übung: Validieren der Datenqualität in einer Batch-Pipeline mit Serverless für Apache Spark
Modul 4 - Orchestrierung und Überwachung von Batch-Datenpipelines
Beschreibung: Sie orchestrieren komplexe Batch-Datenpipeline-Workflows für eine effiziente Planung und Verlaufsverfolgung. Außerdem implementieren Sie eine robuste Fehlerbehandlung, Überwachung und Beobachtbarkeit für Batch-Daten-Pipelines.
Themen:
- Orchestrierung für die Stapelverarbeitung
- Cloud-Komponist
- Vereinheitlichte Beobachtbarkeit
- Warnmeldungen und Fehlerbehebung
- Visuelles Pipeline-Management
- Herzlichen Glückwunsch! Zusammenfassung des Kurses
Aktivitäten:
- Quiz
- Übung: Aufbau von Batch-Pipelines in der Cloud Data Fusion