Kursüberblick
In diesem Kurs wird erläutert, wie Sie Databricks und Apache Spark auf Azure verwenden, um Datenprojekte von der Erkundung bis zur Produktion zu nutzen. Sie lernen, wie Sie mit Spark DataFrames, Spark SQL und PySpark groß angelegte Datensätze einlesen, transformieren und analysieren und gleichzeitig Vertrauen in die Verwaltung verteilter Datenverarbeitungsprozesse gewinnen. Dabei sammeln Sie praktische Erfahrung mit dem Databricks-Arbeitsbereich, indem Sie in Clustern navigieren sowie Delta-Tabellen erstellen und optimieren. Außerdem werden Sie sich mit den Datentechnikpraktiken vertraut machen, einschließlich des Entwerfens von ETL-Pipelines, der Behandlung der Schemaentwicklung und der Erzwingung der Datenqualität. Der Kurs verlagert den Schwerpunkt dann auf die Orchestrierung und zeigt Ihnen, wie Sie Workloads mit Lakeflow Jobs und Pipelines automatisieren und verwalten können. Um die Dinge abzurunden, erkunden Sie Governance- und Sicherheitsfunktionen wie Unity Catalog und Purview-Integration, um sicherzustellen, dass Sie mit Daten in einer sicheren, gut verwalteten und produktionsfähigen Umgebung arbeiten können.
Zielgruppe
Dieser Kurs richtet sich an Datenprofis, die ihre Fähigkeiten beim Erstellen und Verwalten von Datenlösungen auf Azure Databricks stärken möchten. Es ist gut geeignet, wenn Sie Dateningenieur, Datenanalyst oder Entwickler mit einer früheren Erfahrung in Python, SQL und grundlegenden Cloudkonzepten sind und sie über eine kleine Analyse in skalierbare, produktionsfähige Datenverarbeitung hinausgehen möchten. Ganz gleich, ob Ihr Ziel darin besteht, Analyseworkflows zu modernisieren, Pipelines zu optimieren oder Daten im großen Maßstab besser zu verwalten und zu steuern, dieser Lernpfad bietet Ihnen die praktischen Fähigkeiten, um erfolgreich zu sein.
Voraussetzungen
Bevor Sie mit diesem Lernpfad beginnen, sollten Sie sich bereits mit den Grundlagen von Python und SQL vertraut machen. Dazu gehört die Möglichkeit, einfache Python-Skripts zu schreiben und mit allgemeinen Datenstrukturen zu arbeiten sowie SQL-Abfragen zum Filtern, Verknüpfen und Aggregieren von Daten zu schreiben. Ein grundlegendes Verständnis gängiger Dateiformate wie CSV, JSON oder Parkett hilft auch beim Arbeiten mit Datasets.
Darüber hinaus ist die Vertrautheit mit dem Azure-Portal und den Kerndiensten wie Azure Storage wichtig, zusammen mit einem allgemeinen Bewusstsein für Datenkonzepte wie Batch- und Streamingverarbeitung und strukturierte und unstrukturierte Daten. Obwohl nicht zwingend erforderlich, kann vorherige Erfahrung mit Big Data-Frameworks wie Spark und der Arbeit mit Jupyter-Notizbüchern den Übergang zu Databricks erleichtern.
Kursinhalt
- Erkunden von Azure Databricks
- Durchführen einer Datenanalyse mit Azure Databricks
- Verwenden von Apache Spark in Azure Databricks
- Verwalten von Daten mit Delta Lake
- Erstellen von Lakeflow Declarative Pipelines
- Bereitstellen von Workloads mit Lakeflow Jobs