A propos de cette formation
Le Machine Learning (apprentissage automatique) constitue aujourd’hui l’une des techniques les plus efficace pour extraire la connaissance et la valeur de la masse croissante des données collectées au sein des entreprises.
Découvrez avec un expert Quantmetry enseignant expérimenté comment Python, grâce à de nombreuses librairies spécialisées et une communauté active vous permet d’implémenter les solutions de machine learning répondant à vos besoins.
Objectifs pédagogiques
- Découvrir les grands modèles utilisés en Machine Learning
- Comprendre les problèmes de classification, de régression et de clustering
- Savoir implémenter, mesurer et optimiser une solution de machine learning
Qu'allez-vous apprendre ?
A l’issue de cette formation mêlant théorie, exercices interactifs avec Python et études de cas guidés vous serez en mesure de :
Connaître les différentes typologies d'algorithmes de Machine Learning
Assimiler la démarche de mise en place d’un projet machine learning
Implémenter un modèle complexe de machine learning avec des outils
Mesurer et optimiser les grands algorithmes de machine learning
Faire du
text mining
------------
Faire du
web scrapping
------------
Le programme de la formation
Une formation sur 3 jours (3 x 7 heures) avec un parcours d’apprentissage clair et progressif. Nous veillons à ne pas vous perdre en chemin et faciliter la mémorisation des connaissances dont vous avez besoin pour avancer.
Consulter le programme du JOUR 1
Matin [3h] : Le machine learning, premières notions
Introduction au Machine Learning
Qu’est-ce que le Machine Learning ?
1. Cas d’usages du quotidien, utilisation du ML par les géants industriels d’aujourd’hui
2. Qu’est-ce que le Machine Learning ? Définitions et résumé des étapes clés
3. Le cas d’usages possibles dans les grands secteurs types, leurs spécificités et points en commun
4. Compromis performance vs. interprétabilité : faut-il toujours choisir entre les deux ?
M1 – Apprentissage supervisé – Processus de Data Science
Focus sur la typologie d’algorithme la plus fréquente : l’apprentissage supervisé
1. Définition de la cible et des variables explicatives. Construction du jeu de données et préparation des échantillons.
2. Choix et entraînement du modèle : importance des statistiques descriptives et prévision de variables.
3. Comment quantifier et présenter la performance d’un modèle tout en choisissant la métrique adaptée à notre besoin
Travaux pratiques
Après-Midi [4h] : Apprentissage supervisé
M1 – Apprentissage supervisé – Gestion du sur-apprentissage
Comprendre et éviter le sur-apprentissage
1. Apprendre les tendances identifiées dans les données, mais pas par cœur : les problèmes de sous et sur-apprentissage
2. Échantillonnage des données : bien choisir le set d’entrainement et de test
3. Garder les caractéristiques des données dans ses échantillons : l’échantillonnage stratifié
4. Gérer la présence dans le test de valeurs jamais observées en phase d’entrainement
5. Mieux utiliser les données à disposition grâce à la validation croisée
6. Cas particulier : les séries temporelles
M2 – Apprentissage supervisé – Algorithmes classiques
Les grands algorithmes de l’apprentissages supervisé
1. Les arbres de décisions, et les modèles ensemblistes qui sont basés sur eux : forêts aléatoires et gradient boosting
2. Les support vector machines
3. Optimisation des hyperparamètres : grid search et randomized search
Consulter le programme du JOUR 2
Matin [3h] : Apprentissage non supervisé
M1 – Apprentissage non supervisé
Que faire en l’absence d’une variable cible ?
1. Méthodologie et exemple d’apprentissage non supervisé : clustering avec k-means et Dbscan
2. Coupler les approches supervisées et non supervisées afin d’obtenir des résultats plus exploitables.
3. Un problème non supervisé classique : la réduction de dimension. Analyse en composantes principales et feature selection
Après-Midi [4h] : Exploration de texte, web scraping
M1 – Text mining
Exploiter des données textuelles
1. Clarification de la terminologie et des cas d’usage possibles : NLP, NLU, NLG, NER
2. Les sources de données possibles à utiliser dans un projet
3. Les étapes d’un pretraitement de texte : nettoyage, gestion des signes spéciaux, lemmatisation et racinisation
4. Principaux algorithmes : TF-IDF, Latent Dirichlet Analysis, Word2Vec, Doc2Vec, …
M2 – Web scraping
Extraire les données du web, différentes approches et mise en pratique
1. Collecte des données web : utilisation des API vs. web scraping. Coûts et limites des deux approches.
2. Packages utilisés : urllib et beautifulsoup. TP associé
3. Contraintes légales : on n’a pas le droit de faire tout ce qu’on est en mesure de faire !
Consulter le programme du JOUR 3
Matin [4h] : Étude de cas – Explorer la donnée
M1 – Appropriation du jeux de données
Mise en condition sur un projet de Data Science
1. Présentation de la plateforme Kaggle et extraction d’un jeu de données
2. Exploration des données : types des colonnes / valeurs manquantes ou abérrantes, distribution des valeurs.
3. Visualisation des données : graphiques univariés et bivariés, corrélation entre features
4. Manipulation des variables : valeurs manquantes, outliers, gérer les variables catégorielles et feature engineering
Après-Midi [3h] : Étude de cas – modélisation et prédiction
M1 – Création de modèle
Calibration d’un modèle
1. Création d’un échantillon d’entraînement et de validation, définition de la métrique de score.
2. Choix des modèles à essayer et leur entrainement. Mesures de performances sur le train set.
3. Calibration du modèle : validation croisée, hyperparamétrage (grid search).
M2 – Prédiction
Mesurer les performances du modèle
1. Prédiction sur le set de test. Bug-fixing en cas de problèmes (ex. variable catégorielle inconnue)
2. Mesures de performances des prédictions sur le set de test, et comparaisons avec les métriques sur le training set.
3. Étude des résultats, identification du modèle plus performant, discussion des possibles pistes d’amélioration.
Modalités d’évaluation d’atteinte des objectifs de la formation
• QCM d’évaluation pour valider l’acquisition des connaissances et l’atteinte des objectifs de chaque formation
Modalités et délais d’accès
Les inscriptions ont lieu au travers du processus d’admission suivant :
• Une qualification de besoin recueillie avec le client
• Qualification des profils en ateliers avec le formateur et le client
Le délai d’accès à la formation est de 11 jours ouvré avant le premier jour de la formation.
Accessibilité aux personnes en situation de handicap
Nous contacter en cas de besoin d’accessibilité particulier pour un participant.
Coordonnées du référent handicap : Mathylde Vilain - mvilain@quantmetry.com
Les modalités pédagogiques
Une formation qui se veut avant tout « Hands-on » avec 60% de pratique et nous espérons beaucoup d’échanges constructifs entre vous et avec nous.
40% d'exposé
Juste de qu'il faut de théorie pour comprendre les notions clés et passer directement à la pratique
60% de pratique
Une formation orientée pratique avec de multiples exercices et la revue en profondeur du code
Interactive
Echangez avec le groupe et votre formateur expert sur vos problématiques et trouvez des réponses
Remis pédagogiques : vous repartez avec ...
- Un book de fiches mémoires résumant les points clés de la formation
- L'ensemble des codes présentés lors de la séance
Publics et Prérequis
Toute personne ayant un profil technique souhaitant découvrir, implémenter et optimiser une solution de machine learning avec Python.
Prérequis : Notions de Python


