Durata corso
5 giorni
Prezzo
1.800,00 €
Cloudera Developer Training for Apache Spark and Hadoop con Python
Codice: DSC03
Il corso fornisce i concetti chiave e le competenze di cui gli sviluppatori python hanno bisogno per utilizzare Apache Spark per sviluppare applicazioni parallele ad alte prestazioni.
Dopo aver seguito questo corso, i partecipanti saranno saranno in grado di sostenere la certificazione CCA Spark and Hadoop Developer Exam (CCA175)
Modalità di erogazione
In aula o Live Virtual Classroom
Attestato di partecipazione
Al termine del corso verrà rilasciato l’attestato di frequenza
Contenuti del corso
- Introduction
- Introduction to Apache Hadoop and the Hadoop Ecosystem
- Apache Hadoop File Storage
- Distributed Processing on an Apache Hadoop Cluster
- Apache Spark Basics
- Working with DataFrames and Schemas
- Analyzing Data with DataFrame Queries
- RDD Overview
- Transforming Data with RDDs
- Aggregating Data with Pair RDDs
- Querying Tables and Views with SQL
- Working with Datasets in Scala
- Writing, Configuring, and Running Spark Applications
- Spark Distributed Processing
- Distributed Data Persistence
- Common Patterns in Spark Data Processing
- Introduction to Structured Streaming
- Structured Streaming with Apache Kafka
- Aggregating and Joining Streaming DataFrames
- Message Processing with Apache Kafka Message
Partecipanti
Amministratori di sistema e responsabili IT
Prerequisiti
conoscenza del linguaggio SCALA, comandi linux base, SQL
Obiettivi
Al termine del corso gli allievi saranno in grado di:
- How to write, configure, and deploy Apache Spark applications on a Hadoop cluster
- How to use the Spark shell and Spark applications to explore, process, and analyze distributed data
- How to query data using Spark SQL, DataFrames, and Datasets
- How to use Spark Streaming to process a live data stream
Lingue
Italiano
Vuoi ulteriori info?