A propos de cette formation

Manipuler et traiter de grands volumes de données devient aujourd’hui pratique commune. Le framework Apache Spark™ offre une solution concrète de distribution de calcul afin d’optimiser les temps de traitement des données.

Découvrez comment débloquer votre potentiel de traitement avec ce framework, en passant en revue l’ensemble des champs d’application, ses différentes librairies et les bonnes pratiques de paramétrages.

Objectifs pédagogiques

  • S’adapter à un contexte big data avec les systèmes distribués
  • Comprendre les motivations à l’utilisation des systèmes distribués
  • Maîtriser les principes fondamentaux, le monitoring, l’optimisation et la librairie de Machine Learning

Qu'allez-vous apprendre ?

A l’issue de cette formation associant une approche théorique à des exemples de mise en pratique et astuces de nos experts, vous serez en mesure de :

Mettre en place un environnement Spark

Comprendre et utiliser MapReduce

Dimensionner
vos clusters

Utiliser
PySpark

Optimiser vos configurations Spark

Déployer algorithme de machine learning 

Le programme de la formation

​​Une formation sur 2 jours (2 x 7 heures) avec un parcours d’apprentissage clair et progressif. Nous veillons à ne pas vous perdre en chemin et faciliter la mémorisation des connaissances dont vous avez besoin pour avancer. 

Matin [4h] : Le fonctionnement de Spark

Introduction à Spark
Historique et motivations
1. De Hadoop à Spark
2. Ecosystème Spark et API Python
Travaux pratiques: Installation de l’environnement de développement

M1 – Spark Core
Compréhension et utilisation des RDD (Resilient Distributed Dataframes)
1. Resilient Distributed Dataframes
2. Actions & Transformations
3. Mécanismes de persistance
Travaux pratiques: Utilisation des transformations et des actions sur un jeu de données de CV + manipulation de HDFS

Après-Midi [3h] : Configuration et exécution de jobs Spark

M1 – Jobs Spark et mécanismes d’optimisation
Exécution des RDD via l’élaboration d’un plan d’exécution logique sous forme d’un graphe orienté acyclique (DAG)
1. Exécution de jobs Spark
2. Introduction au DAG
3. Optimisation de jobs Spark
Travaux pratiques: Utilisation des accumulateurs + manipulation de RDD avancés sur un jeu de données de CV

Matin [3h] : Préparation de données et fonctionnement d’un cluster Spark

M1 – Dataprep en Spark : Spark SQL
Accéder et requêter ses données à l’aide de Spark SQL
1. Spark SQL: Fonctionnement et manipulation
2. Représentation logique d’un jeu de données via les différentes API Spark: Historique des API DataFrames et DataSet
Travaux pratiques: Utilisation de Spark SQL et manipulation des DataFrames

M2 – Fonctionnement et dimensionnement des composants d’un cluster Spark
Explication des différents rôles des composants d’un cluster Spark
1. Les composatns dun cluster Spark: Driver, executors et cluster manager
2. Mécanismes de traduction du code en jobs Spark exécutables
3. Gestion de la mémoire en Spark
4. Tips & tricks: Dimensionnement d’un cluster Spark

Après-Midi [4h] : Machine Learning en Spark

M1 – Introduction à Spark ML
Construction de pipelines de transformation de données et utilisation de modèles de Machine Learning
1. Présentation de l’API Spark ML
2. Les fondamentaux du Machine Learning: Variable cible, variables explicatives, échantillonnage et mesures de performance
3. Construction de pipelines de Machine learning
Travaux pratiques: Construction d’un pipeline de Machine Learning de classification binaire sur le jeu de données Titanic

Vous préférez télécharger ?

Les modalités pédagogiques

Une formation qui se veut avant tout « Hands-on » avec 50% de pratique et nous espérons beaucoup d’échanges constructifs entre vous et avec nous.

50% d'exposé

Juste de qu'il faut de théorie pour comprendre les notions clés et passer directement à la pratique

50% de pratique

Une formation orientée pratique avec de multiples exercices et la revue en profondeur du code

Interactive

Echangez avec le groupe et votre formateur expert sur vos problématiques et trouvez des réponses

Remis pédagogiques :  vous repartez avec ...

Publics et Prérequis

Toute personne ayant un profil techniques souhaitant monter en compétence sur le framework Apache Spark ™ .

Prérequis : Notions en python ou scala, bases en Machine Learning.

Cette formation vous plaît ?
Faites la connaitre !
Partager sur linkedin
Partager sur facebook
Partager sur twitter

Spark est une marque déposée par Apache Software Foundation 

TARIF H.T.
2 147 €
Intra : Sur devis
Prix par stagiaire. Petit-déjeuner et repas du midi inclus.
VOTRE FORMATEUR
Walid

Walid

Expert IA / Data

Polytechnique Paris Sud, Master Big Data Grenoble Ecole Management. Spécialiste machine Learning, text mining, et image recognition System
-
#Polytechnique
#Voyage
#Challenge

PROCHAINE(S) SESSION(S)

24novToute la journée25Traitement distribué avec Apache Spark™Paris - Saint Augustin

Cette formation de l'Institut pourrait également vous intéresser