Retour

Les essentiels du Data scientist

Objectifs de la formation

Objectifs Acquérir les connaissances théoriques et les compétences pratiques nécessaires pour exercer le métier de Data Scientist en entreprise. Ces compétences permettront de modéliser des données structurées sans biais et en utilisant le langage de programmation Python. Compétences visées - Maitriser le langage de programmation Python - Manipuler et modéliser des données tabulaires - Acquérir les connaissances théoriques clés sur les principaux algorithmes de Machine Learning supervisés & non-supervisés - Implémenter en Python les principaux algorithmes de Machine Learning supervisés & non-supervisés - Mettre en pratique les bonnes pratiques de développement informatique au sein de projet de Data Science

Contenu de la formation

Introduction au langage de programmation Python (librairie NumPy) : - Les variables - Les contrôles logiques - Les listes - Les dictionnaires - Les boucles - Les fonctions - Les NumPy Arrays - Les fonctions scalaires et matricielles - Le broadcasting Data Management en Python (librairie pandas) : - Importer et explorer des DataFrames - Sélectionner et filtrer des données - Nettoyage des données pour la modélisation Machine Learning en Python (librairie scikit-learn, NumPy) - Apprentissage supervisé vs non-supervisé - Fonction de perte et optimisation des modèles - Compromis biais - variance - Validation-croisée - Apprentissage supervisé : Modèles de régression (régression linéaire, régression Ridge, régression Lasso, régression elastic-net) - Apprentissage supervisé : Modèles de classification (régression logistique) - Apprentissage non-supervisé : Réduction de dimensions (Analyse en Composantes Principales) - Apprentissage non-supervisé : Clustering (k-means, Classification Ascendante Hierarchique) Machine Learning Avancé en Python (librairies scikit-learn, xgboost, lightgbm) - Classification binaire et multi-classes - Métriques d'évaluation - Utilisation des pipelines - Support-Vector Machine (classification & régression) - Arbre de décision (classification & régression) - Modèles ensemblistes pour la classification et la régression (Bagging, Random Forest, AdaBoost, Gradient Boosting, xgboost, lightGBM) - Méthodes pour limiter le sur-apprentissage et le sous-apprentissage - Optimisation des hyper-paramètres Scoring en Python (librairies scipy, scikit-learn, Boruta, lime, shap) - Sélection de variables par des méthodes univariées - Sélection de variables par des méthodes multivariées (algorithme boruta) - Traitement des données déséquilibrées - Courbe de Lift - Calibration des scores (algorithme de Platt scaling, régression isotonique) - Interprétation globale et locale des modèles (méthodes Permutation feature importance & Partial dépendance plot, valeurs de Shapley, LIME) - Ciblage et monitoring Bonnes pratiques DevOps pour la Data Science - Qualité du code avec pep8 et pep27 - Architecture des projets avec Cookiecutter - Versionning et travail collaboratif avec GitHub - Portabilité d'une application avec les machines virtuelles et Docker - Introduction à la mise en production avec l'approche CI/CD Réalisation d'un projet avec l'accès à un mentor Data Scientist Senior

Résultats de la formation

Attestation de suivi de présence

Conditions spécifiques d'accès à la formation

Avoir des bases en programmation (quel que soit le langage) ainsi que des bases en statistiques.

Formation 100% en ligne

Métier formé

Data / Big data

Niveau d'étude visé

Sans le Bac

Type d'immersion professionnelle

Formation initiale

Organisme de formation

Datagong

Durée de la formation

24 mois

Prochaine(s) session(s)

  • 15/02/2023 - 15/02/2025