Kursüberblick

Diese viertägige praktische Schulung vermittelt die wichtigsten Konzepte und Kenntnisse, die Entwickler benötigen, um mit Apache Spark leistungsstarke, parallele Anwendungen auf der Cloudera Data Platform (CDP) zu entwickeln.

In praktischen Übungen können die Teilnehmer das Schreiben von Spark-Anwendungen üben, die sich in die CDP-Kernkomponenten integrieren lassen. Die Teilnehmer lernen, wie sie Spark SQL verwenden, um strukturierte Daten abzufragen, wie sie Hive-Funktionen verwenden, um Daten aufzunehmen und zu denormalisieren, und wie sie mit "Big Data" arbeiten, die in einem verteilten Dateisystem gespeichert sind.

Nach diesem Kurs sind die Teilnehmer in der Lage, sich realen Herausforderungen zu stellen und Anwendungen zu erstellen, um schnellere und bessere Entscheidungen zu treffen und interaktive Analysen durchzuführen, die auf eine Vielzahl von Anwendungsfällen, Architekturen und Branchen angewendet werden können.

Dieser Text wurde automatisiert übersetzt. Um den englischen Originaltext anzuzeigen, klicken Sie bitte hier.

Zielgruppe

Dieser Kurs ist für Entwickler und Dateningenieure gedacht. Von allen Teilnehmern wird erwartet, dass sie über grundlegende Linux-Erfahrungen und Grundkenntnisse in den Programmiersprachen Python oder Scala verfügen.

Voraussetzungen

Grundkenntnisse in SQL sind hilfreich. Vorkenntnisse in Spark und Hadoop sind nicht erforderlich.

Kursziele

In diesem Kurs werden Sie lernen, wie man:

Verteilen, Speichern und Verarbeiten von Daten in einem CDP-Cluster
Schreiben, Konfigurieren und Bereitstellen von Apache Spark-Anwendungen
Verwenden Sie die Spark-Interpreter und Spark-Anwendungen, um verteilte Daten zu untersuchen, zu verarbeiten und zu analysieren
Abfrage von Daten mit Spark SQL, DataFrames und Hive-Tabellen
Bereitstellen einer Spark-Anwendung auf dem Data Engineering Service

Kursinhalt

HDFS-Einführung
YARN-Einführung
Arbeiten mit RDDs
Arbeiten mit DataFrames
Einführung in Apache Hive
Arbeiten mit Apache Hive
Integration von Hive und Spark
Herausforderungen bei der verteilten Verarbeitung
Verteilte Spark-Verarbeitung
Verteilte Persistenz von Spark
Daten-Engineering-Dienst
Arbeitsbelastung XM
Anhang: Arbeiten mit Datensätzen in Scala

Preise & Trainingsmethoden

Online Training

Dauer
4 Tage

Preis

US $ 5'250.–

Termine und Buchen

Termin anfragen

Klassenraum-Training

Dauer
4 Tage

Preis

Schweiz: US $ 5'250.–

Termine und Buchen

Termin anfragen

Derzeit gibt es keine Trainingstermine für diesen Kurs.

Termin anfragen