Data Engineering on AWS (DEAWS) – Details

Detaillierter Kursinhalt

Tag 1

Modul 1: Aufgabenbereiche und Schlüsselkonzepte im Bereich Data Engineering

  • Die Rolle eines Dateningenieurs
  • Wichtige Aufgaben eines Dateningenieurs
  • Daten Personen
  • Datenermittlung
  • AWS-Datendienste

Modul 2: AWS-Tools und -Services für das Data Engineering

  • Orchestrierung und Automatisierung
  • Sicherheit im Bereich Datenverarbeitung
  • Überwachung
  • Kontinuierliche Integration und kontinuierliche Bereitstellung
  • Infrastruktur als Code
  • AWS Serverless-Anwendungsmodell
  • Überlegungen zum Netzwerk
  • Kostenoptimierungstools

Modul 3: Entwurf und Implementierung von Data Lakes

  • Einführung in Data Lakes
  • Datenspeicher
  • Daten in einen Data Lake einlesen
  • Katalogdaten
  • Daten transformieren
  • Serverdaten für den Verbrauch

Praktisches Labor: Einrichten eines Data Lake auf AWS

Modul 4: Optimierung und Sicherung einer Data-Lake-Lösung

  • Formate für offene Tabellen
  • Sicherheit mit AWS Lake Formation
  • Festlegen von Berechtigungen mit Lake Formation
  • Sicherheit und Governance
  • Fehlerbehebung

Praktisches Labor: Automatisierung der Erstellung von Data Lakes mit AWS Lake Formation Blueprints

Tag 2

Modul 5: Architektur und Gestaltungsprinzipien von Data Warehouses

  • Einführung in Data Warehouses
  • Amazon Redshift – Übersicht
  • Daten in Redshift einlesen
  • Datenverarbeitung
  • Daten für den Verbrauch bereitstellen

Praktisches Labor: Einrichten eines Data Warehouse mit Amazon Redshift Serverless

Modul 6: Techniken zur Leistungsoptimierung für Data Warehouses

  • Überwachungs- und Optimierungsoptionen
  • Datenoptimierung in Amazon Redshift
  • Abfrageoptimierung in Amazon Redshift
  • Orchestrierungsoptionen

Modul 7: Sicherheit und Zugriffskontrolle für Data Warehouses

  • Authentifizierung und Zugriffskontrolle in Amazon Redshift
  • Datensicherheit in Amazon Redshift
  • Auditierung und Compliance in Amazon Redshift

Praktisches Labor: Verwaltung der Zugriffskontrolle in Redshift

Modul 8: Entwerfen von Batch-Datenpipelines

  • Einführung in Batch-Datenpipelines
  • Entwurf einer Batch-Datenpipeline
  • AWS-Dienste für die Stapelverarbeitung von Daten

Modul 9: Implementierung von Strategien für die Batch-Datenpipeline

  • Elemente einer Batch-Datenpipeline
  • Verarbeitung und Umwandlung von Daten
  • Integration und Katalogisierung Ihrer Daten
  • Daten für den Verbrauch bereitstellen

Praktisches Labor: Ein Tag im Leben eines Dateningenieurs

Tag drei

Modul 10: Optimierung, Orchestrierung und Sicherung von Batch-Datenpipelines

  • Optimierung der Batch-Datenpipeline
  • Orchestrierung der Batch-Datenpipeline
  • Sicherung der Batch-Datenpipeline

Praktisches Labor: Orchestrierung der Datenverarbeitung in Spark mithilfe von AWS Step Functions

Modul 11: Architekturmuster für Streaming-Daten

  • Einführung in Streaming-Datenpipelines
  • Daten aus Stream-Quellen erfassen
  • Streaming-Datenaufnahmedienste
  • Speichern von Streaming-Daten
  • Verarbeitung von Streaming-Daten
  • Analyse von Streaming-Daten mit AWS-Services

Praktisches Labor: Streaming-Analysen mit Amazon Managed Service für Apache Flink

Modul 12: Optimierung und Sicherung von Streaming-Lösungen

  • Optimierung einer Streaming-Datenlösung
  • Sichern einer Streaming-Datenpipeline
  • Compliance-Überlegungen

Praktisches Labor: Zugriffskontrolle mit Amazon Managed Streaming für Apache Kafka