Data Engineering mit Apache Spark

data engineering

Apache Spark hat sich im Data Engineering als Standard etabliert. Das Einladen, Transformieren und Abspeichern der Daten für nachgelagerte Aufgaben sind beim Machine Learning und im Analytics-Kontext unabdingbar. Aufgrund der vielfältigen Adapter zu verschiedensten Datenquellen, seiner flexiblen und erweiterbaren Transformationsmöglichkeiten und nicht zuletzt seiner sehr guten horizontalen Skalierbarkeit im Cluster ist Apache Spark hier das Werkzeug der Wahl.

Für Neulinge im Big Data-Bereich ist der Einstieg in Spark nicht ganz einfach, da ein Grundwissen über das gesamte Hadoop/Spark-Ökosystem unverzichtbar ist. Ist diese Hürde überwunden und hat man sich mit der nativen Programmiersprache von Apache Spark, Scala, angefreundet, wird man Apache Spark rasch als mächtiges Werkzeug zu schätzen lernen. Insbesondere für die Arbeit mit sehr großen Datenmengen, die andernfalls nur mühsam zu zähmen wären.

Der Workshop versetzt den Teilnehmer in die Lage, erste eigenständige Schritte mit Apache Spark zu gehen. Dabei wird auch auf die Positionierung von Apache Spark im Big Data Universum eingegangen, um die typischen Einsatzumgebungen kennenzulernen. Der Schwerpunkt der Schulung liegt auf Data Engineering, d.h. der Aufbereitung von Daten zur weiteren Verwendung.

Für die praktischen Übungen im Workshop erhält jeder Teilnehmer Zugang zu einem jeweils eigenen Hadoop/Spark-Cluster in der Cloud. Der Zugriff erfolgt per Web-Browser und gegebenenfalls per SSH.

Inhalt

Tag 1 – Vormittag

  • Einführung in die virtuelle Cloud-Umgebung
  • Schnelleinführung in Scala
  • Grundlagen Hadoop und verteilte Datenverarbeitung
  • Grundlegende Ideen und Konzepte von Apache Spark

Tag 1 –  Nachmittag

  • Erste Schritte mit Apache Spark
  • Transformieren, Filtern, Aggregieren, Gruppieren, Joins

Tag 2 – Vormittag

  • Wiederholung Vortag
  • Längere Übung
  • SQL mit Apache Spark

Tag 2 – Nachmittag

  • Überblick zu Hive und Integration in Spark
  • Grundgerüst einer Sparkapplikation
  • Start einer Sparkanwendung
  • Ausblick auf weitere Features wie Streaming und Machine Learning

Zielgruppe

Dieser Kurs richtet sich an Software-Entwickler, die mit Apache Spark arbeiten möchten, unter anderem ETL-Entwickler, Data Engineers und Data Scientists. Mit den präsentierten Inhalten hinsichtlich der Technologien und APIs eignet sich der Kurs hervorragend als Vorbereitung für erste Praxisaufgaben im Berufsalltag eines Big Data Engineers.

Eckdaten

Zielgruppe: ETL-Entwickler, Data Engineers, Data Scientists | Dauer 2 Tage | Trainer: Dr. Kaya Kupferschmidt, Dimajix | Ort: online | Teilnehmerzahl: 6-12

Sollte der Workshop aufgrund Krankheit, höherer Gewalt oder zu geringer Teilnehmerzahl nicht durchgeführt werden können, informieren wir die Teilnehmer*innen schnellstmöglich. Der Ticketpreis wird in dem Fall erstattet.

Online-Workshop, 27./28. September 2021

Uhrzeit:

9-17 Uhr

Preis:

1.650 € zzgl. MwSt. - 10% Frühbucherrabatt!

In Kooperation mit:


Ihr Ansprechpartner für Fragen:

ansprechpartner-steffi-metzler

Steffi Metzler
E-Mail: akademie@golem.de
Tel. 030-6290111-77

Dr. Kaya Kupferschmidt
trainer-foto

Dr. Kaya Kupferschmidt hat vor zehn Jahren mit der Hadoop Version 0.22.0 seinen Einstieg in die Big Data-Welt genommen. Seitdem arbeitet er als unabhängiger Experte für zahlreiche Unternehmen an der Verarbeitung und Analyse großer Datenmengen, vorzugsweise mit Apache Spark. Seit einigen Jahren führt er Workshops im Themenfeld Data Engineering und Machine Learning durch.

Data Engineering mit Apache Spark

data engineering

Apache Spark hat sich im Data Engineering als Standard etabliert. Das Einladen, Transformieren und Abspeichern der Daten für nachgelagerte Aufgaben sind beim Machine Learning und im Analytics-Kontext unabdingbar. Aufgrund der vielfältigen Adapter zu verschiedensten Datenquellen, seiner flexiblen und erweiterbaren Transformationsmöglichkeiten und nicht zuletzt seiner sehr guten horizontalen Skalierbarkeit im Cluster ist Apache Spark hier das Werkzeug der Wahl.

Für Neulinge im Big Data-Bereich ist der Einstieg in Spark nicht ganz einfach, da ein Grundwissen über das gesamte Hadoop/Spark-Ökosystem unverzichtbar ist. Ist diese Hürde überwunden und hat man sich mit der nativen Programmiersprache von Apache Spark, Scala, angefreundet, wird man Apache Spark rasch als mächtiges Werkzeug zu schätzen lernen. Insbesondere für die Arbeit mit sehr großen Datenmengen, die andernfalls nur mühsam zu zähmen wären.

Der Workshop versetzt den Teilnehmer in die Lage, erste eigenständige Schritte mit Apache Spark zu gehen. Dabei wird auch auf die Positionierung von Apache Spark im Big Data Universum eingegangen, um die typischen Einsatzumgebungen kennenzulernen. Der Schwerpunkt der Schulung liegt auf Data Engineering, d.h. der Aufbereitung von Daten zur weiteren Verwendung.

Für die praktischen Übungen im Workshop erhält jeder Teilnehmer Zugang zu einem jeweils eigenen Hadoop/Spark-Cluster in der Cloud. Der Zugriff erfolgt per Web-Browser und gegebenenfalls per SSH.

Inhalt

Tag 1 – Vormittag

  • Einführung in die virtuelle Cloud-Umgebung
  • Schnelleinführung in Scala
  • Grundlagen Hadoop und verteilte Datenverarbeitung
  • Grundlegende Ideen und Konzepte von Apache Spark

Tag 1 –  Nachmittag

  • Erste Schritte mit Apache Spark
  • Transformieren, Filtern, Aggregieren, Gruppieren, Joins

Tag 2 – Vormittag

  • Wiederholung Vortag
  • Längere Übung
  • SQL mit Apache Spark

Tag 2 – Nachmittag

  • Überblick zu Hive und Integration in Spark
  • Grundgerüst einer Sparkapplikation
  • Start einer Sparkanwendung
  • Ausblick auf weitere Features wie Streaming und Machine Learning

Zielgruppe

Dieser Kurs richtet sich an Software-Entwickler, die mit Apache Spark arbeiten möchten, unter anderem ETL-Entwickler, Data Engineers und Data Scientists. Mit den präsentierten Inhalten hinsichtlich der Technologien und APIs eignet sich der Kurs hervorragend als Vorbereitung für erste Praxisaufgaben im Berufsalltag eines Big Data Engineers.

Eckdaten

Zielgruppe: ETL-Entwickler, Data Engineers, Data Scientists | Dauer 2 Tage | Trainer: Dr. Kaya Kupferschmidt, Dimajix | Ort: online | Teilnehmerzahl: 6-12

Sollte der Workshop aufgrund Krankheit, höherer Gewalt oder zu geringer Teilnehmerzahl nicht durchgeführt werden können, informieren wir die Teilnehmer*innen schnellstmöglich. Der Ticketpreis wird in dem Fall erstattet.

Online-Workshop, 27./28. September 2021

Uhrzeit:

Preis:

1.650 € zzgl. MwSt. - 10% Frühbucherrabatt!

In Kooperation mit:


Aktuelle News und Top-Themen
aus der IT-Branche

Aktuelle News und Top-Themen
aus der IT-Branche

Unsere Schulungspartner