A propos de cette formation

Le Machine Learning (apprentissage automatique) constitue aujourd’hui l’une des techniques les plus efficace pour extraire la connaissance et la valeur de la masse croissante des données collectées au sein des entreprises.

Découvrez avec un expert Quantmetry enseignant expérimenté comment Python, grâce à de nombreuses librairies spécialisées et une communauté active vous permet d’implémenter les solutions de machine learning répondant à vos besoins.

Objectifs pédagogiques

  • Découvrir les grands modèles utilisés en Machine Learning
  • Comprendre les problèmes de classification, de régression et de clustering
  • Savoir implémenter, mesurer et optimiser une solution de machine learning

Qu'allez-vous apprendre ?

A l’issue de cette formation mêlant théorie, exercices interactifs avec Python et études de cas guidés vous serez en mesure de :

Connaître les différentes typologies d'algorithmes de Machine Learning

Assimiler la démarche de mise en place d’un projet machine learning

Implémenter un modèle complexe de machine learning avec des outils

Mesurer et optimiser les grands algorithmes de machine learning

Faire du
text mining
------------ 

Faire du
web scrapping
------------ 

Le programme de la formation

Une formation sur 3 jours (3 x 7 heures) avec un parcours d’apprentissage clair et progressif. Nous veillons à ne pas vous perdre en chemin et faciliter la mémorisation des connaissances dont vous avez besoin pour avancer. 

Matin [3h] : Le machine learning, premières notions

Introduction au Machine Learning
Qu’est-ce que le Machine Learning ?
1. Cas d’usages du quotidien, utilisation du ML par les géants industriels d’aujourd’hui
2. Qu’est-ce que le Machine Learning ? Définitions et résumé des étapes clés
3. Le cas d’usages possibles dans les grands secteurs types, leurs spécificités et points en commun
4. Compromis performance vs. interprétabilité : faut-il toujours choisir entre les deux ?

M1 – Apprentissage supervisé – Processus de Data Science
Focus sur la typologie d’algorithme la plus fréquente : l’apprentissage supervisé
1. Définition de la cible et des variables explicatives. Construction du jeu de données et préparation des échantillons.
2. Choix et entraînement du modèle : importance des statistiques descriptives et prévision de variables.
3. Comment quantifier et présenter la performance d’un modèle tout en choisissant la métrique adaptée à notre besoin
Travaux pratiques

Après-Midi [4h] : Apprentissage supervisé

M1 – Apprentissage supervisé – Gestion du sur-apprentissage
Comprendre et éviter le sur-apprentissage
1. Apprendre les tendances identifiées dans les données, mais pas par cœur : les problèmes de sous et sur-apprentissage
2. Échantillonnage des données : bien choisir le set d’entrainement et de test
3. Garder les caractéristiques des données dans ses échantillons : l’échantillonnage stratifié
4. Gérer la présence dans le test de valeurs jamais observées en phase d’entrainement
5. Mieux utiliser les données à disposition grâce à la validation croisée
6. Cas particulier : les séries temporelles

M2 – Apprentissage supervisé – Algorithmes classiques
Les grands algorithmes de l’apprentissages supervisé
1. Les arbres de décisions, et les modèles ensemblistes qui sont basés sur eux : forêts aléatoires et gradient boosting
2. Les support vector machines
3. Optimisation des hyperparamètres : grid search et randomized search

Matin [3h] : Apprentissage non supervisé

M1 – Apprentissage non supervisé
Que faire en l’absence d’une variable cible ?
1. Méthodologie et exemple d’apprentissage non supervisé : clustering avec k-means et Dbscan
2. Coupler les approches supervisées et non supervisées afin d’obtenir des résultats plus exploitables.
3. Un problème non supervisé classique : la réduction de dimension. Analyse en composantes principales et feature selection

Après-Midi [4h] : Exploration de texte, web scraping

M1 – Text mining
Exploiter des données textuelles
1. Clarification de la terminologie et des cas d’usage possibles : NLP, NLU, NLG, NER
2. Les sources de données possibles à utiliser dans un projet
3. Les étapes d’un pretraitement de texte : nettoyage, gestion des signes spéciaux, lemmatisation et racinisation
4. Principaux algorithmes : TF-IDF, Latent Dirichlet Analysis, Word2Vec, Doc2Vec, …

M2 – Web scraping
Extraire les données du web, différentes approches et mise en pratique
1. Collecte des données web : utilisation des API vs. web scraping. Coûts et limites des deux approches.
2. Packages utilisés : urllib et beautifulsoup. TP associé
3. Contraintes légales : on n’a pas le droit de faire tout ce qu’on est en mesure de faire !

Matin [4h] : Étude de cas – Explorer la donnée

M1 – Appropriation du jeux de données
Mise en condition sur un projet de Data Science
1. Présentation de la plateforme Kaggle et extraction d’un jeu de données
2. Exploration des données : types des colonnes / valeurs manquantes ou abérrantes, distribution des valeurs.
3. Visualisation des données : graphiques univariés et bivariés, corrélation entre features
4. Manipulation des variables : valeurs manquantes, outliers, gérer les variables catégorielles et feature engineering

Après-Midi [3h] : Étude de cas – modélisation et prédiction

M1 – Création de modèle
Calibration d’un modèle
1. Création d’un échantillon d’entraînement et de validation, définition de la métrique de score.
2. Choix des modèles à essayer et leur entrainement. Mesures de performances sur le train set.
3. Calibration du modèle : validation croisée, hyperparamétrage (grid search).

M2 – Prédiction
Mesurer les performances du modèle
1. Prédiction sur le set de test. Bug-fixing en cas de problèmes (ex. variable catégorielle inconnue)
2. Mesures de performances des prédictions sur le set de test, et comparaisons avec les métriques sur le training set.
3. Étude des résultats, identification du modèle plus performant, discussion des possibles pistes d’amélioration.

Vous préférez télécharger ?

Modalités d’évaluation d’atteinte des objectifs de la formation

• QCM d’évaluation pour valider l’acquisition des connaissances et l’atteinte des objectifs de chaque formation

Modalités et délais d’accès

Les inscriptions ont lieu au travers du processus d’admission suivant :
• Une qualification de besoin recueillie avec le client
• Qualification des profils en ateliers avec le formateur et le client

Le délai d’accès à la formation est de 11 jours ouvré avant le premier jour de la formation.

Accessibilité aux personnes en situation de handicap

Nous contacter en cas de besoin d’accessibilité particulier pour un participant.
Coordonnées du référent handicap : Mathylde Vilain - mvilain@quantmetry.com

Les modalités pédagogiques

​Une formation qui se veut avant tout « Hands-on » avec 60% de pratique et nous espérons beaucoup d’échanges constructifs entre vous et avec nous.

40% d'exposé

Juste de qu'il faut de théorie pour comprendre les notions clés et passer directement à la pratique

60% de pratique

Une formation orientée pratique avec de multiples exercices et la revue en profondeur du code

Interactive

Echangez avec le groupe et votre formateur expert sur vos problématiques et trouvez des réponses

Remis pédagogiques :  vous repartez avec ...

Publics et Prérequis

Toute personne ayant un profil technique souhaitant découvrir, implémenter et optimiser une solution de machine learning avec Python.

 

Prérequis : Notions de Python

Cette formation vous plaît ?
Faites la connaitre !
Partager sur linkedin
Partager sur facebook
Partager sur twitter
TARIF
2 997 € HT
TVA 20% - 3 596,40 € TTC
Intra : Sur devis
Prix par stagiaire.
VOTRE FORMATEUR
Guillaume

Guillaume

Expert IA / Data

Docteur en imagerie satellitaire, expert en traitement de séries temporelles. Pédagogue expérimenté, il a enseigné en L3 et M2 en école d’ingénieur et pendant plus de 10 ans en cours particuliers
-
#tropicalstorm
#diveinstructor
#wingsuit

Ces formations de l'Institut pourraient également vous intéresser