A propos de cette formation
Manipuler et traiter de grands volumes de données devient aujourd’hui pratique commune. Le framework Apache Spark™ offre une solution concrète de distribution de calcul afin d’optimiser les temps de traitement des données.
Découvrez comment débloquer votre potentiel de traitement avec ce framework, en passant en revue l’ensemble des champs d’application, ses différentes librairies et les bonnes pratiques de paramétrages.
Objectifs pédagogiques
- S’adapter à un contexte big data avec les systèmes distribués
- Comprendre les motivations à l’utilisation des systèmes distribués
- Maîtriser les principes fondamentaux, le monitoring, l’optimisation et la librairie de Machine Learning
Qu'allez-vous apprendre ?
A l’issue de cette formation associant une approche théorique à des exemples de mise en pratique et astuces de nos experts, vous serez en mesure de :
Mettre en place un environnement Spark
Comprendre et utiliser MapReduce
Dimensionner
vos clusters
Utiliser
PySpark
Optimiser vos configurations Spark
Déployer algorithme de machine learning
Le programme de la formation
Une formation sur 2 jours (2 x 7 heures) avec un parcours d’apprentissage clair et progressif. Nous veillons à ne pas vous perdre en chemin et faciliter la mémorisation des connaissances dont vous avez besoin pour avancer.
Consulter le programme du JOUR 1
Matin [4h] : Le fonctionnement de Spark
Introduction à Spark
Historique et motivations
1. De Hadoop à Spark
2. Ecosystème Spark et API Python
Travaux pratiques: Installation de l’environnement de développement
M1 – Spark Core
Compréhension et utilisation des RDD (Resilient Distributed Dataframes)
1. Resilient Distributed Dataframes
2. Actions & Transformations
3. Mécanismes de persistance
Travaux pratiques: Utilisation des transformations et des actions sur un jeu de données de CV + manipulation de HDFS
Après-Midi [3h] : Configuration et exécution de jobs Spark
M1 – Jobs Spark et mécanismes d’optimisation
Exécution des RDD via l’élaboration d’un plan d’exécution logique sous forme d’un graphe orienté acyclique (DAG)
1. Exécution de jobs Spark
2. Introduction au DAG
3. Optimisation de jobs Spark
Travaux pratiques: Utilisation des accumulateurs + manipulation de RDD avancés sur un jeu de données de CV
Consulter le programme du JOUR 2
Matin [3h] : Préparation de données et fonctionnement d’un cluster Spark
M1 – Dataprep en Spark : Spark SQL
Accéder et requêter ses données à l’aide de Spark SQL
1. Spark SQL: Fonctionnement et manipulation
2. Représentation logique d’un jeu de données via les différentes API Spark: Historique des API DataFrames et DataSet
Travaux pratiques: Utilisation de Spark SQL et manipulation des DataFrames
M2 – Fonctionnement et dimensionnement des composants d’un cluster Spark
Explication des différents rôles des composants d’un cluster Spark
1. Les composatns dun cluster Spark: Driver, executors et cluster manager
2. Mécanismes de traduction du code en jobs Spark exécutables
3. Gestion de la mémoire en Spark
4. Tips & tricks: Dimensionnement d’un cluster Spark
Après-Midi [4h] : Machine Learning en Spark
M1 – Introduction à Spark ML
Construction de pipelines de transformation de données et utilisation de modèles de Machine Learning
1. Présentation de l’API Spark ML
2. Les fondamentaux du Machine Learning: Variable cible, variables explicatives, échantillonnage et mesures de performance
3. Construction de pipelines de Machine learning
Travaux pratiques: Construction d’un pipeline de Machine Learning de classification binaire sur le jeu de données Titanic
Modalités d’évaluation d’atteinte des objectifs de la formation
• QCM d’évaluation pour valider l’acquisition des connaissances et l’atteinte des objectifs de chaque formation
Modalités et délais d’accès
Les inscriptions ont lieu au travers du processus d’admission suivant :
• Une qualification de besoin recueillie avec le client
• Qualification des profils en ateliers avec le formateur et le client
Le délai d’accès à la formation est de 11 jours ouvré avant le premier jour de la formation.
Accessibilité aux personnes en situation de handicap
Nous contacter en cas de besoin d’accessibilité particulier pour un participant.
Coordonnées du référent handicap : Mathylde Vilain - mvilain@quantmetry.com
Les modalités pédagogiques
Une formation qui se veut avant tout « Hands-on » avec 50% de pratique et nous espérons beaucoup d’échanges constructifs entre vous et avec nous.
50% d'exposé
Juste de qu'il faut de théorie pour comprendre les notions clés et passer directement à la pratique
50% de pratique
Une formation orientée pratique avec de multiples exercices et la revue en profondeur du code
Interactive
Echangez avec le groupe et votre formateur expert sur vos problématiques et trouvez des réponses
Remis pédagogiques : vous repartez avec ...
- Un book de fiches mémoires résumant les points clés de la formation
- L'ensemble des codes présentés lors de la séance
Publics et Prérequis
Toute personne ayant un profil techniques souhaitant monter en compétence sur le framework Apache Spark ™ .
Prérequis : Notions en python ou scala, bases en Machine Learning.



Cette formation vous plaît ?
Faites la connaitre !
Spark est une marque déposée par Apache Software Foundation