Analyzing with Cloudera Data Warehouse (ACDW) – Details

Detaillierter Kursinhalt

Grundlagen für Big Data Analytics
  • Überblick über Big Data Analytics
  • Datenspeicherung: HDFS
  • Verteilte Datenverarbeitung: YARN, MapReduce und Spark
  • Datenverarbeitung und -analyse: Hive und Impala
  • Datenbank-Integration: Sqoop
  • Andere Daten-Tools
  • Erläuterung des Übungsszenarios
Einführung in Apache Hive und Impala
  • Was ist Hive?
  • Was ist Impala?
  • Warum Hive und Impala verwenden?
  • Schema und Datenspeicherung
  • Vergleich von Hive und Impala mit herkömmlichen Datenbanken
  • Anwendungsfälle
Abfragen mit Apache Hive und Impala
  • Datenbanken und Tabellen
  • Grundlegende Syntax der Hive- und Impala-Abfragesprache
  • Datenarten
  • Hue zum Ausführen von Abfragen verwenden
  • Beeline verwenden (Hive's Shell)
  • Verwendung der Impala-Shell
Allgemeine Operatoren und eingebaute Funktionen
  • Betreiber
  • Skalare Funktionen
  • Aggregierte Funktionen
Data Management
  • Datenspeicherung
  • Datenbanken und Tabellen erstellen
  • Laden von Daten
  • Ändern von Datenbanken und Tabellen
  • Vereinfachung von Abfragen mit Ansichten
  • Speichern von Abfrageergebnissen
Datenspeicherung und Leistung
  • Partitionierung von Tabellen
  • Laden von Daten in partitionierte Tabellen
  • Wann wird die Partitionierung verwendet?
  • Auswahl eines Dateiformats
  • Verwendung der Dateiformate Avro und Parquet
Arbeiten mit mehreren Datensätzen
  • UNION und Joins
  • Behandlung von NULL-Werten in Joins
  • Erweiterte Verknüpfungen
Analytische Funktionen und Fensterung
  • Analytische Funktionen verwenden
  • Andere analytische Funktionen
  • Schiebefenster
Komplexe Daten
  • Komplexe Daten mit Hive
  • Komplexe Daten mit Impala
Analysieren von Text
  • Verwendung regulärer Ausdrücke mit Hive und Impala
  • Verarbeitung von Textdaten mit SerDes in Hive
  • Sentiment-Analyse und n-Gramme in Hive
Apache Hive-Optimierung
  • Verständnis der Abfrageleistung
  • Kostenbasierte Optimierung und Statistik
  • Eimer
  • ORC-Datei Optimierungen
Apache Impala-Optimierung
  • Wie Impala Abfragen ausführt
  • Verbesserung der Impala-Leistung
Erweitern von Hive und Impala
  • Benutzerdefinierte Funktionen
  • Parametrisierte Abfragen
Die Wahl des besten Werkzeugs für die Aufgabe
  • Vergleich von Hive, Impala und
  • Relationale Datenbanken
  • Was soll ich wählen?
CDP Öffentliches Cloud Data Warehouse
  • Data Warehouse-Übersicht
  • Auto-Skalierung
  • Verwaltung von virtuellen Lagern
  • Abfrage von Daten mit CLI und Integration von Drittanbietern
Anhang: Apache Kudu
  • Was ist Kudu?
  • Kudu Tische
  • Verwendung von Impala mit Kudu