Detaillierter Kursinhalt
Tag 1:
Modul 1: Einführung in Data Lakes
- Beschreiben Sie den Wert von Data Lakes
- Vergleich von Data Lakes und Data Warehouses
- Beschreiben Sie die Komponenten eines Data Lake
- Erkennen gemeinsamer Architekturen, die auf Data Lakes aufbauen
Modul 2: Dateneingabe, Katalogisierung und Vorbereitung
- Beschreiben Sie die Beziehung zwischen der Speicherung von Daten im Data Lake und der Aufnahme von Daten
- Beschreiben Sie die AWS Glue Crawler und wie sie zur Erstellung eines Datenkatalogs verwendet werden
- Datenformatierung, -partitionierung und -komprimierung für eine effiziente Speicherung und Abfrage identifizieren
- Übung 1: Einrichten eines einfachen Datensees
Modul 3: Datenverarbeitung und Analytik
- Erkennen, wie sich die Datenverarbeitung auf einen Data Lake auswirkt
- Verwendung von AWS Glue zur Verarbeitung von Daten in einem Data Lake
- Beschreiben Sie, wie Sie Amazon Athena zur Analyse von Daten in einem Data Lake verwenden können.
Modul 4: Aufbau eines Data Lake mit AWS Lake Formation
- Beschreiben Sie die Merkmale und Vorteile der AWS Lake Formation
- Verwenden Sie AWS Lake Formation zum Erstellen eines Data Lake
- Verstehen des AWS Lake Formation-Sicherheitsmodells
- Übung 2: Erstellen eines Datensees mit AWS Lake Formation
Modul 5: Zusätzliche Konfigurationen der Seenbildung
- Automatisieren Sie AWS Lake Formation mithilfe von Blaupausen und Arbeitsabläufen
- Anwendung von Sicherheits- und Zugriffskontrollen auf AWS Lake Formation
- Datensätze mit AWS Lake Formation FindMatches abgleichen
- Visualisieren Sie Daten mit Amazon QuickSight
- Übung 3: Automatisierte Erstellung von Data Lake mit AWS Lake Formation-Blueprints
- Übung 4: Datenvisualisierung mit Amazon QuickSight
Tag 2:
Modul A: Überblick über Datenanalyse und die Datenpipeline
- Anwendungsfälle der Datenanalyse
- Nutzung der Datenpipeline für Analysen
Modul 1: Einführung in Amazon EMR
- Verwendung von Amazon EMR in Analyselösungen
- Amazon EMR-Cluster-Architektur
- Interaktive Demo 1: Starten eines Amazon EMR-Clusters
- Strategien für das Kostenmanagement
Modul 2: Datenanalyse-Pipeline mit Amazon EMR: Ingestion und Speicherung
- Speicheroptimierung mit Amazon EMR
- Techniken für die Datenübernahme
Modul 3: Leistungsstarke Batch-Datenanalyse mit Apache Spark auf Amazon EMR
- Apache Spark auf Amazon EMR Anwendungsfälle
- Warum Apache Spark auf Amazon EMR
- Spark-Konzepte
- Interaktive Demo 2: Verbinden mit einem EMR-Cluster und Ausführen von Scala-Befehlen mit der Spark-Shell
- Umwandlung, Verarbeitung und Analyse
- Verwendung von Notebooks mit Amazon EMR
- Praxisübung 1: Datenanalyse mit niedriger Latenz mit Apache Spark auf Amazon EMR
Modul 4: Verarbeitung und Analyse von Batch-Daten mit Amazon EMR und Apache Hive
- Verwendung von Amazon EMR mit Hive zur Verarbeitung von Stapeldaten
- Umwandlung, Verarbeitung und Analyse
- Praxisübung 2: Batch-Datenverarbeitung mit Amazon EMR und Hive
- Einführung in Apache HBase auf Amazon EMR
Modul 5: Serverlose Datenverarbeitung
- Serverlose Datenverarbeitung, -umwandlung und -analyse
- Verwendung von AWS Glue mit Amazon EMR-Arbeitslasten
- Praxisübung 3: Orchestrierung der Datenverarbeitung in Spark mit AWS Step Functions
Modul 6: Sicherheit und Überwachung von Amazon EMR-Clustern
- Sicherung von EMR-Clustern
- Interaktive Demo 3: Client-seitige Verschlüsselung mit EMRFS
- Überwachung und Fehlerbehebung von Amazon EMR-Clustern
- Demo: Überprüfung der Apache Spark-Cluster-Historie
Modul 7: Entwurf von Batch-Datenanalyse-Lösungen
- Anwendungsfälle der Batch-Datenanalyse
- Tätigkeit: Entwurf eines Arbeitsablaufs für die Batch-Datenanalyse
- Modul B: Entwicklung von modernen Datenarchitekturen auf AWS
- Moderne Datenarchitekturen
Tag 3:
Modul A: Überblick über Datenanalyse und die Datenpipeline
- Anwendungsfälle der Datenanalyse
- Nutzung der Datenpipeline für Analysen
Modul 1: Verwendung von Amazon Redshift in der Datenanalyse-Pipeline
- Warum Amazon Redshift für Data Warehousing?
- Überblick über Amazon Redshift
Modul 2: Einführung in Amazon Redshift
- Amazon Redshift Architektur
- Interaktive Demo 1: Rundgang durch die Amazon Redshift-Konsole
- Amazon Redshift-Funktionen
- Praxisübung 1: Einrichten Ihres Data Warehouse mit Amazon Redshift
Modul 3: Ingestion und Speicherung
- Verschlucken
- Interaktive Demo 2: Verbinden Sie Ihren Amazon Redshift-Cluster über ein Jupyter-Notebook mit Data API
- Verteilung und Speicherung von Daten
- Interaktive Demo 3: Analyse von halbstrukturierten Daten mit dem Datentyp SUPER
- Abfrage von Daten in Amazon Redshift
- Praxisübung 2: Datenanalyse mit Amazon Redshift Spectrum
Modul 4: Verarbeitung und Optimierung von Daten
- Datenumwandlung
- Erweiterte Abfragen
- Praxisübung 3: Datentransformation und Abfrage in Amazon Redshift
- Verwaltung der Ressourcen
- Interaktive Demo 4: Anwendung von gemischtem Workload-Management auf Amazon Redshift
- Automatisierung und Optimierung
Modul 5: Sicherheit und Überwachung von Amazon Redshift-Clustern
- Absicherung des Amazon Redshift-Clusters
- Überwachung und Fehlerbehebung von Amazon Redshift-Clustern
Modul 6: Entwurf von Data Warehouse Analytics-Lösungen
- Überprüfung von Anwendungsfällen für Data Warehouses
- Tätigkeit: Entwerfen eines Arbeitsablaufs für Data-Warehouse-Analysen
Modul B: Entwicklung von modernen Datenarchitekturen auf AWS
- Moderne Datenarchitekturen
Tag 4:
Modul A: Überblick über Datenanalyse und die Datenpipeline
- Anwendungsfälle der Datenanalyse
- Nutzung der Datenpipeline für Analysen
Modul 1: Verwendung von Streaming Services in der Datenanalyse-Pipeline
- Die Bedeutung der Analyse von Streaming-Daten
- Die Pipeline für die Streaming-Datenanalyse
- Streaming-Konzepte
Modul 2: Einführung in AWS Streaming Services
- Streaming-Datendienste in AWS
- Amazon Kinesis in Analyselösungen
- Demonstration: Amazon Kinesis-Datenströme erforschen
- Praxis-Labor: Einrichten einer Streaming-Bereitstellungspipeline mit Amazon Kinesis
- Verwendung von Amazon Kinesis Data Analytics
- Einführung in Amazon MSK
- Überblick über Spark Streaming
Modul 3: Verwendung von Amazon Kinesis für Echtzeit-Datenanalysen
- Untersuchung von Amazon Kinesis anhand einer Clickstream-Arbeitslast
- Erstellen von Kinesis-Daten- und Lieferströmen
- Demonstration: Produzenten und Konsumenten verstehen
- Bau von Stromerzeugern
- Gebäude Stromverbraucher
- Erstellen und Bereitstellen von Flink-Anwendungen in Kinesis Data Analytics
- Demonstration: Erkunden Sie Zeppelin-Notebooks für Kinesis Data Analytics
- Praxis-Labor: Streaming-Analysen mit Amazon Kinesis Data Analytics und Apache Flink
Modul 4: Sichern, Überwachen und Optimieren von Amazon Kinesis
- Optimieren Sie Amazon Kinesis, um verwertbare Geschäftseinblicke zu gewinnen
- Bewährte Verfahren für Sicherheit und Überwachung
Modul 5: Verwendung von Amazon MSK in Streaming Data Analytics-Lösungen
- Anwendungsfälle für Amazon MSK
- MSK-Cluster erstellen
- Demonstration: Bereitstellen eines MSK-Clusters
- Einspeisung von Daten in Amazon MSK
- Praxis-Labor: Einführung in die Zugangskontrolle mit Amazon MSK
- Umwandlung und Verarbeitung in Amazon MSK
Modul 6: Sichern, Überwachen und Optimieren von Amazon MSK
- Optimierung von Amazon MSK
- Demonstration: Skalierung des Amazon MSK-Speichers
- Praxis-Labor: Amazon MSK-Streaming-Pipeline und Anwendungsbereitstellung
- Sicherheit und Überwachung
- Demonstration: Überwachung eines MSK-Clusters
Modul 7: Entwurf von Streaming Data Analytics-Lösungen
- Überprüfung von Anwendungsfällen
- Klassenübung: Entwerfen eines Arbeitsablaufs für die Streaming-Datenanalyse
Modul B: Entwickeln moderner Datenarchitekturen auf AWS
- Moderne Datenarchitekturen