Retour

Spark Accelerated - analyse de données en temps réel

Objectifs de la formation

Cette formation de 3 jours plonge les participants dans le monde d'Apache Spark, l'un des moteurs de traitement de données les plus puissants pour l'analyse en temps réel et le machine learning. À travers des séances théoriques et des ateliers pratiques, vous apprendrez à : Configurer des environnements Spark pour des projets de données variés. Utiliser Spark SQL pour l'analyse de données et Spark Streaming pour le traitement en temps réel. Appliquer des algorithmes de machine learning avec MLlib pour extraire des insights de données complexes. Compétences à Acquérir : Installation et configuration d'Apache Spark dans des environnements distribués. Création et optimisation de pipelines de données en temps réel. Développement de modèles prédictifs avec MLlib. Connaissances Spécifiques : Principes fondamentaux d'Apache Spark, y compris son architecture et son écosystème. Techniques avancées d'analyse de données avec Spark SQL. Fondamentaux de Spark Streaming et de MLlib pour le traitement de flux de données et le machine learning. Aptitudes Développées : - Capacité à analyser et traiter de grands ensembles de données de manière efficace et en temps réel. - Compétences en programmation Scala ou Python pour le développement d'applications Spark. - Aptitude à mettre en oeuvre des solutions de machine learning à grande échelle.

Contenu de la formation

Jour 1 : Introduction à Apache Spark Introduction aux fondamentaux de Spark et à son écosystème. Configuration d'un environnement Spark et premiers pas avec Spark Shell. Traitement de données avec RDDs et DataFrames. Jour 2 : Spark SQL et Streaming Approfondissement de Spark SQL pour l'analyse de données. Introduction à Spark Streaming pour le traitement de données en temps réel. Ateliers pratiques sur l'intégration de flux de données. Jour 3 : Machine Learning avec MLlib Exploration de MLlib pour le développement de modèles de machine learning. Application pratique des algorithmes de machine learning sur des ensembles de données réels. Best practices pour le déploiement et l'optimisation de modèles ML avec Spark. Conclusion et projet de fin de formation: Les participants appliqueront les compétences acquises sur un projet de fin de formation qui combine l'analyse de données, le traitement en temps réel, et le machine learning. Ce projet permettra de consolider les connaissances et de démontrer la capacité à résoudre des problèmes de données complexes avec Apache Spark.

Résultats de la formation

Attestation de suivi de présence

Conditions spécifiques d'accès à la formation

Aucun.

Métier formé

Data / Big data

Niveau d'étude visé

Sans le Bac

Type d'immersion professionnelle

Formation initiale

Organisme de formation

Datakoo

Durée de la formation

1 mois

Modalités de formation

formation entièrement présentielle

Prochaine(s) session(s)

  • 17/01/2025 - 19/01/2025

Lieu de formation

21 1P1 Avenue du President Wilson 75116 Paris 16e