Zur Navigation springen (Enter drücken)
Zur Suche springen (Enter drücken)
Zum Kursangebot springen (Enter drücken)
Zum Seiteninhalt springen (Enter drücken)

+49 40 253346-10 Kontakt

ACDW

Online Training

Dauer
4 Tage

Preis

US$ 3.520,– (exkl. MwSt.)
US$ 4.188,80 (inkl. 19% MwSt.)

Termine und Buchen

Termin anfragen

Classroom Training

Dauer
4 Tage

Preis

Deutschland:
US$ 3.520,– (exkl. MwSt.)
US$ 4.188,80 (inkl. 19% MwSt.)
Schweiz:
US$ 5.250,– (exkl. MwSt.)
US$ 5.675,25 (inkl. 8.1% MwSt.)

Termine und Buchen

Termin anfragen

Onsite Training

Kurs anfragen

Analyzing with Cloudera Data Warehouse (ACDW) – Details

Detaillierter Kursinhalt

Grundlagen für Big Data Analytics

Überblick über Big Data Analytics
Datenspeicherung: HDFS
Verteilte Datenverarbeitung: YARN, MapReduce und Spark
Datenverarbeitung und -analyse: Hive und Impala
Datenbank-Integration: Sqoop
Andere Daten-Tools
Erläuterung des Übungsszenarios

Einführung in Apache Hive und Impala

Was ist Hive?
Was ist Impala?
Warum Hive und Impala verwenden?
Schema und Datenspeicherung
Vergleich von Hive und Impala mit herkömmlichen Datenbanken
Anwendungsfälle

Abfragen mit Apache Hive und Impala

Datenbanken und Tabellen
Grundlegende Syntax der Hive- und Impala-Abfragesprache
Datenarten
Hue zum Ausführen von Abfragen verwenden
Beeline verwenden (Hive's Shell)
Verwendung der Impala-Shell

Allgemeine Operatoren und eingebaute Funktionen

Betreiber
Skalare Funktionen
Aggregierte Funktionen

Data Management

Datenspeicherung
Datenbanken und Tabellen erstellen
Laden von Daten
Ändern von Datenbanken und Tabellen
Vereinfachung von Abfragen mit Ansichten
Speichern von Abfrageergebnissen

Datenspeicherung und Leistung

Partitionierung von Tabellen
Laden von Daten in partitionierte Tabellen
Wann wird die Partitionierung verwendet?
Auswahl eines Dateiformats
Verwendung der Dateiformate Avro und Parquet

Arbeiten mit mehreren Datensätzen

UNION und Joins
Behandlung von NULL-Werten in Joins
Erweiterte Verknüpfungen

Analytische Funktionen und Fensterung

Analytische Funktionen verwenden
Andere analytische Funktionen
Schiebefenster

Komplexe Daten

Komplexe Daten mit Hive
Komplexe Daten mit Impala

Analysieren von Text

Verwendung regulärer Ausdrücke mit Hive und Impala
Verarbeitung von Textdaten mit SerDes in Hive
Sentiment-Analyse und n-Gramme in Hive

Apache Hive-Optimierung

Verständnis der Abfrageleistung
Kostenbasierte Optimierung und Statistik
Eimer
ORC-Datei Optimierungen

Apache Impala-Optimierung

Wie Impala Abfragen ausführt
Verbesserung der Impala-Leistung

Erweitern von Hive und Impala

Benutzerdefinierte Funktionen
Parametrisierte Abfragen

Die Wahl des besten Werkzeugs für die Aufgabe

Vergleich von Hive, Impala und
Relationale Datenbanken
Was soll ich wählen?

CDP Öffentliches Cloud Data Warehouse

Data Warehouse-Übersicht
Auto-Skalierung
Verwaltung von virtuellen Lagern
Abfrage von Daten mit CLI und Integration von Drittanbietern

Anhang: Apache Kudu

Was ist Kudu?
Kudu Tische
Verwendung von Impala mit Kudu

Kontakt