Retour
Big Data - développement d'applications et Data Visualisation
Objectifs de la formation
- Connaître les spécificités du Big Data. - Savoir mettre en oeuvre les technologies relatives au Big Data. - Comprendre et exploiter le Machine Learning. - Pouvoir tirer partie de la visualisation des données.
Contenu de la formation
- Comprendre les spécificités du Big Data. Les origines du Big Data. Les données au coeur des enjeux (volume, diversité, IoT, etc.). Les limites des architectures actuelles et de la BI. Sécurité, éthique, environnement juridique. - Les technologies Big Data (Hadoop). Comprendre Hadoop et ses composants. Le système de fichiers répartis HDFS (Hadopp Filesystem). Philosophie de MapReduce. L'apport de YARN (Yet Another Resource Negotiator). Différentes catégories de bases NoSQL (clé/valeur, documents, colonnes, graphes). Indexer et rechercher des données avec Elasticsearch. Les visualiser à l'aide de KIBANA. Quand utiliser le couplage Elasticsearch, Logstash, Kibana (ELK) ?. Le moteur de recherche SolR. SAS VA et autres solutions mixtes Cloud/On Premice pour explorer vos données. IBM Watson (fédération des informations). Solution BI Classique. Impacts techniques et financiers des différentes solutions (savoir-faire, coûts, etc.). - Le développement (Mapreduce, Spark). Philosophie et contraintes du pattern MapReduce (Hadoop). Concrètement quelles briques logicielles pour le développeur ?. Exemple de pseudo-code pour les opérations map et reduce. Limites de MapReduce et émergence de Spark. Les différentes versions de Spark (Scala, Python et Java). Des traitements en mémoire et tolérants aux pannes RDD (Resilient Distributed Datasets). Les modes de travail en cluster de Spark. - Machine Learning. Qu'est-ce que le Machine Learning ?. Les points de vigilance par rapport au Big Data. Les différents types de machine learning. Les principaux algorithmes. Utiliser SparkML pour faire du Machine Learning de manière distribuée. Créer un système de catégorisation. Comprendre la différence entre Deep Learning et Machine Learning. Réseaux de neurones et Deep Learning. Utiliser le deep learning pour faire de la reconnaissance de caractère avec Tensorflow en Python. - La visualisation des données (Dataviz). Ce que les statistiques ne disent pas. Les objectifs de la visualisation. Quels graphes pour quels usages ?. Représentation de données complexes (encodage visuel, visualisation interactive). Savoir communiquer sur les analyses de données (Data Storytelling). - Études de cas. Analyse de profils clients avec l'utilisation de Spark (domaine Banque et Assurance) Classification de conducteur dans une agence de transport Proposition de produits par rapport à une liste d'achats (Machine Learning)
Résultats de la formation
Attestation d'acquis ou de compétences;Attestation de suivi de présence
Conditions spécifiques d'accès à la formation
La connaissance d un langage de programmation est imperative. Les exemples seront presentes avec les langages suivants : Java, Python, Scala et R.
Métier formé
Data / Big data
Niveau d'étude visé
Sans le Bac
Type d'immersion professionnelle
Formation initiale
Organisme de formation
PLB Consultant
Durée de la formation
1 mois
Modalités de formation
formation entièrement présentielle
Prochaine(s) session(s)
- 12/11/2024 - 15/11/2024