MESRI - La machine à données

Automatiser le nettoyage de bases de données

  • Numérique public

  • Promotion 1

Ministère de l’Enseignement Supérieur, de la Recherche et de l’Innovation

Paris

Data science, Développement

Code source

De nombreuses bases de données sont construites à la main, et les informations saisies ne se conforment pas aux référentiels existants. Par exemple, les noms des établissements scolaires pourront différer d’une base de données à l’autre. Comment nettoyer les données sans faire de la « reprise de données » manuelle ?

Concevoir un outil générique pour faciliter le nettoyage de base de données.

C’est à cette question que répond la « Magical Merge Machine », une solution développée par Léo et Laurent au Ministère de l’Enseignement Supérieur, de la Recherche et de l’Innovation (MESRI). Ce logiciel accélère le nettoyage de grandes bases de données : vous lui apprenez quelles sont les associations pertinentes entre votre base à nettoyer et une autre base de référence, et une fois qu’il aura assez appris, il pourra vous proposer une normalisation des données de votre base initial. Magique ! Et surtout très pratique.

Rétrospective

10 mois après : retour d’expérience sur l’aventure EIG.