Durata corso:
Prezzo
+ IVA
Apache Spark architettura Calcolo Distribuito: PySpark
Codice: DSBD11
Il corso vuole introdurre i principali concetti di Big Data con una veloce panoramica sulle architetture di riferimento, in particolare Hadoop e Apache Spark: Spark è uno dei principali framework per l’elaborazione distribuita di Big Data che però non include un sistema di gestione dei dati: per tale ragione, solitamente viene distribuito su Hadoop.
Modalità di erogazione
In aula o Live Virtual Classroom
Attestato di partecipazione
Al termine del corso verrà rilasciato l’attestato di frequenza
Apache Spark
- Introduzione a Spark
- L’architettura
- Le API
- L’RDD API
- Concetto di RDD
- Transformation & Actions
- Pair RDD
- Caching
- SQL API
Dataframe
Tabelle e Views
Utilizzo del linguaggio SQL
- Spark Machine Learning
Introduzione alle API
Estimators & transformers
Pipelines
Principali algoritmi
Sviluppatori o per chi si approccia allo sviluppo software nel settore del trattamento dei dati.
È richiesta una buona conoscenza delle tecnologie IT più diffuse quali sistemi operativi, linguaggi di programmazione
Al termine del corso, il partecipante avrà acquisito competenze riguardo concetti teorici, strumenti e tecniche per la progettazione e l’implementazione di procedure per l’analisi avanzata dei Big Data.