Retour
Analyse de données en environnement Hadoop
Objectifs de la formation
Objectifs : Connaitre les fonctionnements d'Hadoop Distributed File System (HDFS) et YARN / MapReduce Savoir explorer HDFS et suivre l'exécution d'une application YARN Déterminer les fonctionnements et l'utilisation les différents outils de manipulation des données Compétences visées : - Comprendre ce que sont Hadoop et YARN - Connaître les différents outils et les Framework dans un environnement Hadoop - Appréhender MapReduce - Comprendre comment exécuter une tâche de MapReduce sur YARN - Exécuter des modifications en masse avec PIG - Savoir écrire des requêtes pour HIVE afin d'analyser ses données - Savoir utiliser Sqoop pour transférer les données entre Hadoop et une base de données relationnelle - Découverte d'autres briques : automatiser vos process avec Oozie - Utiliser une base de données No-SQL (HBase)
Contenu de la formation
- Hadoop Comprendre Hadoop 2.0 et son écosystème Quels impacts de l'arrivée d'Hadoop dans un SI traditionnel ? Le Hadoop Distributed File System (HDFS) Introduction aux données dans HDFS MapReduce Framework et YARN - Pig Introduction à Pig Programmation Pig avancée Troubleshooting et optimisation avec Pig Résolution des problèmes avec Pig Utiliser l'UI Web d'Hadoop Démo optionnelle : résolution d'un « Failed Job » avec l'UI Web Echantillonnage de données et débogage Vue d'ensemble des performances Comprendre le plan d'exécution Astuces pour améliorer la performance de vos « Pig Jobs » - Hive Programmation Hive Utilisation de HCatalog Programmation Hive avancée Etendre Hive Transformation de données avec des Scripts personnalisés Fonctions définies par l'utilisateur Paramétrer les requêtes Exercices « Hands-On » : transformation de données avec Hive Programmation Hive avancée (suite) Analyse de données et statistiques - Sqoop Import/Export avec Sqoop (SGBDR HDFS) Sqoop, fonctions avancées Définition de workflow avec Oozie - Optionnel : (sous réserve de temps) Introduction à H-Base Exemple d'ingestion de données avec l'ETL Talend Créer son propre cluster Hadoop (plateforme de test)
Résultats de la formation
Attestation d'acquis ou de compétences;Attestation de suivi de présence
Conditions spécifiques d'accès à la formation
Aucun.
Métier formé
Data / Big data
Niveau d'étude visé
Sans le Bac
Type d'immersion professionnelle
Formation initiale
Organisme de formation
Data Value
Durée de la formation
1 mois
Modalités de formation
formation entièrement présentielle
Prochaine(s) session(s)
- 02/04/2025 - 04/04/2025