Retour

Analyse de données en environnement Hadoop

Objectifs de la formation

Objectifs : Connaitre les fonctionnements d'Hadoop Distributed File System (HDFS) et YARN / MapReduce Savoir explorer HDFS et suivre l'exécution d'une application YARN Déterminer les fonctionnements et l'utilisation les différents outils de manipulation des données Compétences visées : - Comprendre ce que sont Hadoop et YARN - Connaître les différents outils et les Framework dans un environnement Hadoop - Appréhender MapReduce - Comprendre comment exécuter une tâche de MapReduce sur YARN - Exécuter des modifications en masse avec PIG - Savoir écrire des requêtes pour HIVE afin d'analyser ses données - Savoir utiliser Sqoop pour transférer les données entre Hadoop et une base de données relationnelle - Découverte d'autres briques : automatiser vos process avec Oozie - Utiliser une base de données No-SQL (HBase)

Contenu de la formation

- Hadoop Comprendre Hadoop 2.0 et son écosystème Quels impacts de l'arrivée d'Hadoop dans un SI traditionnel ? Le Hadoop Distributed File System (HDFS) Introduction aux données dans HDFS MapReduce Framework et YARN - Pig Introduction à Pig Programmation Pig avancée Troubleshooting et optimisation avec Pig Résolution des problèmes avec Pig Utiliser l'UI Web d'Hadoop Démo optionnelle : résolution d'un « Failed Job » avec l'UI Web Echantillonnage de données et débogage Vue d'ensemble des performances Comprendre le plan d'exécution Astuces pour améliorer la performance de vos « Pig Jobs » - Hive Programmation Hive Utilisation de HCatalog Programmation Hive avancée Etendre Hive Transformation de données avec des Scripts personnalisés Fonctions définies par l'utilisateur Paramétrer les requêtes Exercices « Hands-On » : transformation de données avec Hive Programmation Hive avancée (suite) Analyse de données et statistiques - Sqoop Import/Export avec Sqoop (SGBDR HDFS) Sqoop, fonctions avancées Définition de workflow avec Oozie - Optionnel : (sous réserve de temps) Introduction à H-Base Exemple d'ingestion de données avec l'ETL Talend Créer son propre cluster Hadoop (plateforme de test)

Résultats de la formation

Attestation d'acquis ou de compétences;Attestation de suivi de présence

Conditions spécifiques d'accès à la formation

Aucun.

Métier formé

Data / Big data

Niveau d'étude visé

Sans le Bac

Type d'immersion professionnelle

Formation initiale

Organisme de formation

Data Value

Durée de la formation

1 mois

Modalités de formation

formation entièrement présentielle

Prochaine(s) session(s)

  • 02/04/2025 - 04/04/2025

Lieu de formation

54 Rue du Faubourg Saint-Antoine 75012 Paris 12e