ADLER

Lutter contre les comportements financiers illicites

  • Service public

  • Promotion 3

Ministère de l’Action et des comptes publics

Paris

Data science

L’équipe

Le Ministère de l’Action et des Comptes publics souhaite développer des outils expérimentaux de lutte contre la fraude en s’appuyant sur des méthodes avancées de fouille de données et d’analyse de réseaux afin de rapprocher des sources de données diverses et de détecter des schémas de fraude connus ou nouveaux, dans un cadre réglementé sur la base du droit d’en connaître.

ADLER : détecter des comportements financiers illicites par l’analyse de réseaux

La problématique

La criminalité et la fraude financières sont à l’origine de coûts qui se chiffrent en milliards d’euros pour les Etats . Selon les estimations les plus prudentes de la Commission Européenne, la seule fraude à la TVA peut entraîner pour les États membres de l’Union des pertes de recettes supérieures à 50 milliards €. Or, en plus d’être très efficaces, les schémas de fraude sont multiples et évoluent rapidement, ce qui les rend d’autant plus difficile à déceler.

Face à cet impératif économique, des systèmes évolués de détection de fraude émergent. Les modèles prédictifs et l’analyse de graphes/réseaux dessinent une perspective prometteuse car ils permettent de rapprocher des données hétérogènes provenant de sources diverses. En parallèle, inspirées par les systèmes d’informations d’entreprise ou du net, les modélisations sémantiques d’entités et de leurs liens -ou ontologies- permettent la recherche ou l’apprentissage à un niveau d’abstraction élevé (cf. Knowledge Graph -ou graphe de connaissance- de Google) et donnent la possibilité à des intelligences artificielles de raisonner sur ces entités.

Le défi : détecter des schémas de fraude en exploitant des graphes de connaissance (knowledge graph)

Le défi consiste à :

  • contribuer à la construction et la visualisation d’un graphe de connaissance à partir de données hétérogènes -textuelles et structurées- concernant différents types de fraude financière ;
  • développer des méthodes de détection d’individus ou de communautés d’intérêt à partir du graphe.

Capitalisant sur des travaux en cours, la mission aura comme point de départ une première approche de construction du graphe de connaissance, ainsi que des outils existants de visualisation et d’analyse de graphes/réseaux.

L’objectif de la mission sera donc double :

  • évaluer l’adéquation du graphe actuel aux données d’origine et aux besoins opérationnels, proposer et implémenter des axes d’amélioration (si possible par des méthodes prédictives) : extraction d’information à partir de données textuelles, résolution d’entités, adaptation de l’ontologie existante, prédiction de liens, etc ;
  • faire évoluer les outils de visualisation et de détection de fraude pour exploiter au mieux le modèle sémantique et la richesse du graphe. On pourra éventuellement investiguer le potentiel d’approches à l’état de l’art telles que les graph embeddings, le deep learning

Rétrospective

Améliorer l’action publique à l’aide de la data science, l’exemple du défi ADLER