Retour

Python sur Spark avec Databricks

Objectifs de la formation

Maîtriser la librairie PySpark afin d'utiliser Apache Spark avec le langage de programmation Python sur un environnement Databricks.

Contenu de la formation

- Présentation de Databricks Cette introduction permet de vous initier à l'environnement Databricks et ses outils Historique Différence entre l'utilisation Administrateur et Utilisateur Comment mettre en place un projet sur Databricks/AWS Comment créer un cluster de calcul avec Databricks/AWS Gestion des notebooks, des utilisateurs et des ressources - Introduction à Spark Spark est un environnement de travail distribué qui permet d'effectuer des calculs sur des gros volumes de données Rappels sur le Big Data Présentation de Spark: Spark RDD, Spark SQL, Spark MLlib, Spark GraphX Configurer un Spark Context et une Spark Session Gestion de la mémoire sous Spark - Présentation de PySpark et l'API Pyspark RDD Pyspark est l'API Python de Spark Présentation de Pyspark et fonctionnement avec les Java Virtual Machines Présentation de l'API Pyspark RDD et manipulation de données non structurées Mise en pratique avec des fichiers textes (comptage de mots, nettoyage d'un fichier texte structuré) et avec des opérations d'agrégation sur PairRDDs - Utilisation de l'API Pyspark SQL L'API Pyspark SQL permet de manipuler des données structurées sous format de Dataframes avec du Python et du SQL Présentation de l'API Pyspark SQL Lecture de fichiers csv, json, parquet et sauvegarde de fichier Nettoyage et manipulation de données Groupby et agrégation Jointure de tables Lien entre SQL et Python Manipulation d'objets Row, et Window Manipulation de dates Utilisation de User Defined Function et de Pandas User Defined functions Présentation de Pyspark Pandas Nombreuses mises en pratique sur des jeux de données - Introduction au Machine Learning Rappels des fondamentaux du Machine Learning Qu'est-ce que le Machine Learning? Apprentissages supervisé et non supervisé Compromis Biais Variance Modèles Linéaires Modèles Non Linéaires Modèles ensemblistes Modèles de clustering Métriques et évaluation des performances - Machine Learning avec PySpark Les librairies associées à Pyspark MLlib permettent de faire tourner des modèles de Machine Learning dans un environnement de calcul distribué
  • Résultats de la formation

    Attestation de formation

    Conditions spécifiques d'accès à la formation

    Pour suivre ce stage dans de bonnes conditions, il est recommande d avoir suivi en amont la formationPython - Bases et introduction aux librairies scientifiquesou d avoir atteint par la pratique un niveau equivalent

  • Métier formé

    Data / Big data

    Niveau d'étude visé

    Sans le Bac

    Type d'immersion professionnelle

    Formation initiale

    Organisme de formation

    Data Value

    Durée de la formation

    1 mois

    Modalités de formation

    formation entièrement présentielle

    Prochaine(s) session(s)

    • 13/10/2025 - 17/10/2025

    Lieu de formation

    41 rue de la Decouverte CS 37621 31676 Labège