Objectifs de la formation
- Comprendre l'écosystème Big Data dans sa globalité (concepts, technologies, architecture). - Analyser les risques et les difficultés propres à un projet Big Data. - Comprendre l'origine et le format des données manipulées. - Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques. - Connaître les architectures distribuées dominantes du marché. - Se repérer dans les technologies Big Data pour concevoir une architecture performante en fonction des projets. - Mettre en oeuvre un cluster Hadoop et l'exploiter. - Déployer une application Hadoop/Spark sur une architecture Big Data.
Contenu de la formation
- Définition et contexte spécifique des projets Big Data. Les origines du Big Data. Les données au coeur des enjeux : - Explosion du nombre de données. - Liens entre Big Data et IoT (internet des objets). - Données structurées, semi-structurées, non structurées. Les limites des architectures actuelles. Définition d'un système Big Data. Principes de fonctionnement. Les différentes offres des marchés. Compétences et qualités requises pour un architecte Big Data. Organiser la récupération, le stockage et la gestion des données brutes. Les responsabilités de l'architecte. Risques et difficultés rencontrés dans les projets Big Data. *Étude de cas. - Propriété de la donnée, environnement juridique du traitement, sécurité. Sécurité éthique et enjeux juridiques. Les données personnelles. Les informations sensibles. Les données interdites de collecte. Rôle de la CNIL au quotidien. Les accords intra-pays. Les responsabilités des personnes. Problématiques spécifiques au Big Data. *Travaux pratiques. - Impacts des choix technologiques (infrastructure, architecture). Les architectures décisionnelles « traditionnelles » (datastore, datawarehouse, datamart, ...). DataLake comme support des architectures BigData ?. Philosophie des bases NoSQL : column family, orienté document, clé-valeur, graphe. Quelques acteurs (MongoDB, Cassandra...). Les performances de Big Table en lecture/écriture. Requêter sur un gros volume de données avec le moteur Big Query. Les database machine (Exadata). Les bases de données vectorielles (Sybase IQ). Hadoop un système totalement autonome ?. Les offres techniques des éditeurs Cloud (Azure, GCP, AWS). Monter sa propre infra Big Data ou s'orienter vers des solutions Cloud ?. Utiliser un DataLake « classique » ou monter une architecture Big Data ?. L'exemple de Hadoop-as-a-Service (stockage, analyse, pipeline, Spark, Machine Learning, ...). Impacts détaillés du choix d'une offre Cloud. Méthodes Agiles et DevOps dans le contexte du Big Data. *Travaux pratiques. - Architectures distribuées et patterns. *Travaux pratiques - Qualité des données (dataquality). *Travaux pratiques - Mise en oeuvre d'un cluster Hadoop *Travaux pratiques - Architecture et traitements (Spark). *Travaux pratiques
Résultats de la formation
Attestation d'acquis ou de compétences;Attestation de suivi de présence
Conditions spécifiques d'accès à la formation
Il est recommande d avoir une bonne culture generale des systemes d information et des connaissances basiques sur les modeles relationnels (tables, lignes, colonnes, SQL simple) sont necessaires pour mieux apprehender les donnees non structurees et les references au SQL durant la formation. Il est egalement recommande d avoir des bases en programmation pour mieux apprehender l ecosysteme du Big Data (Hadoop, Spark, ...) et en statistiques (scolaire) lorsque l on evoque les traitements que supportent les architectures BigData.