Detaillierter Kursinhalt
Tag 1
Modul 1: Aufgabenbereiche und Schlüsselkonzepte im Bereich Data Engineering
- Die Rolle eines Dateningenieurs
- Wichtige Aufgaben eines Dateningenieurs
- Daten Personen
- Datenermittlung
- AWS-Datendienste
Modul 2: AWS-Tools und -Services für das Data Engineering
- Orchestrierung und Automatisierung
- Sicherheit im Bereich Datenverarbeitung
- Überwachung
- Kontinuierliche Integration und kontinuierliche Bereitstellung
- Infrastruktur als Code
- AWS Serverless-Anwendungsmodell
- Überlegungen zum Netzwerk
- Kostenoptimierungstools
Modul 3: Entwurf und Implementierung von Data Lakes
- Einführung in Data Lakes
- Datenspeicher
- Daten in einen Data Lake einlesen
- Katalogdaten
- Daten transformieren
- Serverdaten für den Verbrauch
Praktisches Labor: Einrichten eines Data Lake auf AWS
Modul 4: Optimierung und Sicherung einer Data-Lake-Lösung
- Formate für offene Tabellen
- Sicherheit mit AWS Lake Formation
- Festlegen von Berechtigungen mit Lake Formation
- Sicherheit und Governance
- Fehlerbehebung
Praktisches Labor: Automatisierung der Erstellung von Data Lakes mit AWS Lake Formation Blueprints
Tag 2
Modul 5: Architektur und Gestaltungsprinzipien von Data Warehouses
- Einführung in Data Warehouses
- Amazon Redshift – Übersicht
- Daten in Redshift einlesen
- Datenverarbeitung
- Daten für den Verbrauch bereitstellen
Praktisches Labor: Einrichten eines Data Warehouse mit Amazon Redshift Serverless
Modul 6: Techniken zur Leistungsoptimierung für Data Warehouses
- Überwachungs- und Optimierungsoptionen
- Datenoptimierung in Amazon Redshift
- Abfrageoptimierung in Amazon Redshift
- Orchestrierungsoptionen
Modul 7: Sicherheit und Zugriffskontrolle für Data Warehouses
- Authentifizierung und Zugriffskontrolle in Amazon Redshift
- Datensicherheit in Amazon Redshift
- Auditierung und Compliance in Amazon Redshift
Praktisches Labor: Verwaltung der Zugriffskontrolle in Redshift
Modul 8: Entwerfen von Batch-Datenpipelines
- Einführung in Batch-Datenpipelines
- Entwurf einer Batch-Datenpipeline
- AWS-Dienste für die Stapelverarbeitung von Daten
Modul 9: Implementierung von Strategien für die Batch-Datenpipeline
- Elemente einer Batch-Datenpipeline
- Verarbeitung und Umwandlung von Daten
- Integration und Katalogisierung Ihrer Daten
- Daten für den Verbrauch bereitstellen
Praktisches Labor: Ein Tag im Leben eines Dateningenieurs
Tag drei
Modul 10: Optimierung, Orchestrierung und Sicherung von Batch-Datenpipelines
- Optimierung der Batch-Datenpipeline
- Orchestrierung der Batch-Datenpipeline
- Sicherung der Batch-Datenpipeline
Praktisches Labor: Orchestrierung der Datenverarbeitung in Spark mithilfe von AWS Step Functions
Modul 11: Architekturmuster für Streaming-Daten
- Einführung in Streaming-Datenpipelines
- Daten aus Stream-Quellen erfassen
- Streaming-Datenaufnahmedienste
- Speichern von Streaming-Daten
- Verarbeitung von Streaming-Daten
- Analyse von Streaming-Daten mit AWS-Services
Praktisches Labor: Streaming-Analysen mit Amazon Managed Service für Apache Flink
Modul 12: Optimierung und Sicherung von Streaming-Lösungen
- Optimierung einer Streaming-Datenlösung
- Sichern einer Streaming-Datenpipeline
- Compliance-Überlegungen
Praktisches Labor: Zugriffskontrolle mit Amazon Managed Streaming für Apache Kafka