Méthodologie

La Grande École du Numérique (GEN) s’est appuyée sur le savoir-faire de plusieurs Ed-tech pour concevoir et déployer son Observatoire des formations aux métiers du numérique et des besoins en compétences numériques partout en France.

La Grande École du Numérique, dans la continuité de la mise en place de son moteur de recherche, s’est appuyée sur l'EdTech Mindmatcher pour la conception et la mise en production de son Observatoire des formations aux métiers du numérique partout en France.

1. Récupération et indexation des formations au numérique

La première phase du projet a consisté à récupérer les données concernant les formations depuis différentes bases de données des partenaires de la GEN :

  • Les données concernant les formations initiales via l’ONISEP, accessibles en open data ;
  • Les données des formations éligibles au CPF depuis les bases de Mon Compte Formation ;
  • Les données concernant les formations continues fournies par le réseau Carif-Oref.

Ces données sont stockées dans des champs similaires grâce au langage de référence LHÉO puis homogénéisées et enrichies grâce à la technologie d’analyse neuronale automatisée basée sur l’intelligence artificielle de l’EdTech Inokufu.

Un filtrage des données est alors réalisé pour ne retenir que les formations correspondant aux métiers de la cartographie GEN.

Un premier filtre est appliqué sur ces bases pour récupérer les formations appartenant à l'un des des 63 formacodes numériques (version 13) définis au démarrage du projet.

A la suite de ce premier filtre et afin de ne garder que les formations fiables, sont supprimées :

  • les formations avec une durée = 0 ou sans indication de durée en mois
  • les formations sans niveau d'entrée ni de sortie
  • les formations avec une durée supérieure à 60 mois (5 ans), ou avec une durée en mois supérieure à 50 et sans indication du nombre d'heures de formation

Les formations restantes sont ensuite analysées par un premier algorithme qui détermine leur appartenance au domaine du numérique ou pas. Celles qui n'en font pas partie sont filtrées.
 
Un deuxième algorithme détermine ensuite le métier associé à chaque formation. Si cet algorithme ne trouve pas de métier pour une formation en particulier, celle-ci est filtrée.

Les formations sont ainsi toutes taguées par -au minimum- une famille, un métier du numérique et un poste de la cartographie.

2. Récupération et indexation des besoins en compétences numériques

Dans cette version de l’observatoire, les besoins en compétences sont estimés à partir d'un échantillon représentatif d'offres d’emplois.

MindMatcher met au service de la Grande École du Numérique son IA capable de repérer les offres d’emplois correspondant aux métiers de la cartographie du numérique.

Les offres d’emplois créées au cours de chaque mois sont recensées grâce à différents canaux (France Travail, sites carrières, etc.), dédoublonnées puis analysées par l’IA pour fournir des statistiques lisibles sur leur nombre et leur localisation. Grâce à une approche neuronale, l'algorithme va attribuer aux offres d'emploi collectées un métier de la cartographie GEN. Cela permet de pouvoir produire les statistiques présentées dans les différentes visualisations disponibles sur le site, par famille ou métier ainsi que par aire géographique.

Les chiffres concernant les offres d'emploi ne peuvent être analysés en valeur absolue mais en pourcentages relatifs : ces chiffres révèlent des tendances et des proportions qui permettent mois après mois de mieux comprendre les besoins des entreprises.

Mais il faut avoir en tête que les offres d'emploi ne reflètent qu'une partie de la réalité car il existe un marché caché du recrutement (les postes sont pourvus grâce au bouche-à-oreille ou encore, les étudiants embauchés dans la foulée de leur stage ou alternance...). C'est pourquoi la GEN fournit toujours dans ses rapports des analyses complémentaires se basant sur des retours d'experts du recrutement et sur les études du secteur.

3. Structuration de l’Observatoire et informations présentées

L’Observatoire repose ainsi à la fois sur les données liées aux formations et aux offres d’emploi sous différents formats (Représentation géographique départementale, Graphiques de répartition par famille métier, par métier, par région…).

Outre les techniques d’IA utilisées pour extraire et catégoriser les données, l’observatoire utilise des outils de Data Science et de Data visualisation qui permettent notamment une représentation géographique des données. Certains graphiques ou cartes ne prennent en compte que les données de France métropolitaine car les chiffres pour la Corse et les DOM TOM sont trop faibles pour être représentés à la même échelle. Cependant, tous ces chiffres sont disponibles sur la carte interactive de GEN_SCAN.

Les données de cet observatoire sur du moyen et du long terme permettent d'effectuer une analyse de l’évolution des différents indicateurs et d'observer des tendances de fond qui permettront de mieux piloter l’offre de formation à l'échelle nationale, régionale voire départementale en France.