Mécanismes de protection de la propriété intellectuelle dans le contexte de l’apprentissage automatique

Occurrences : 

2021

Nombre d'étudiants minimum: 

2

Nombre d'étudiants maximum: 

4

Nombre d'instances : 

1

Faisable à distance: 

Oui

L'apprentissage automatique est un outil déjà bien établi, utilisé dans une variété d'applications. Pour entraîner un bon modèle, il n’est cependant pas suffisant de bien maitriser la technique. Il faut en plus, ou même surtout, posséder de larges quantités de données de bonne qualité et non-synthétiques. Pour de nombreux cas d’usages, l’obtention de telles données peut poser un problème pour des raisons liées à la protection de la vie privée (i.e. par la suite de l’introduction du RGPD) ou la concurrence. Par conséquent, on observe l’émergence d’un nouveau marché de vente des données, en parallèle du marché de création des modèles de ML. Ceci motive le développement des mécanismes pour la protection de la propriété intellectuelle dans le contexte de l’apprentissage automatique, et plus particulièrement, des techniques permettant le traçage des données et des modèles.

Le projet proposé consiste à manipuler et à analyser les différentes méthodes de protection des données et des modèles dans le contexte de machine learning. Premièrement, les étudiants manipuleront l’outil « radioactive data » qui a été récemment publié par Facebook et qui permet d’identifier si un modèle a été entraîné sur des données volées. Deuxièmement, les étudiants manipuleront les outils conçus pour marquer et tracer les modèles. Finalement, les étudiants pourront tester des attaques ayant pour but d’effacer ce marquage.

Dans l’idéal, les étudiants ont déjà acquis de bonnes bases en programmation (python, utilisation de git). ​

Références

  • Sablayrolles, Alexandre, M. Douze, C. Schmid and Herve Jegou. “Radioactive data: tracing through training.” ArXiv abs/2002.00937 (2020).
  • Katarzyna Kapusta, Vincent Thouvenot, and Olivier Bettan. 2020. Watermarking at the service of intellectual property rights of ML models. Conference on Artificial Intelligence for Defense (CAID)(2020)
  • https://www.ibm.com/blogs/research/2018/07/ai-watermarking/