IA : une AIPD est-elle nécessaire ?

Le développement de systèmes d’intelligence artificielle (IA) peut imposer la mise en place d’une Analyse d’Impact relative à la Protection des Données (AIPD) mais cela n’est pas systématique.

La CNIL met en lumière la nécessité systématique d’une Analyse d’Impact sur la Protection des Données (AIPD) dans le développement et le déploiement de systèmes d’intelligence artificielle (IA) à haut risque (voir la classification des IA par risques).

Cette exigence est en adéquation avec la proposition de règlement sur l’IA de l’Union Européenne, qui présume nécessaire la réalisation d’une AIPD pour ces systèmes lorsque le traitement des données personnelles est impliqué.

Attention : ne pas confondre l’AIPD et la documentation de la conformité telle que prévue par la proposition de règlement sur l’IA qui s’impose essentiellement au fournisseur du système d’IA.

Sommaire

Les risques liés à l’IA à prendre en compte dans une AIPD

Les traitements de données personnelles reposant sur des systèmes d’intelligence artificielle présentent des risques spécifiques qu’il convient de prendre en compte :

les risques pour les personnes concernées liés à des mésusages des données contenues dans la base d’apprentissage, notamment en cas de violation de données ;
le risque d’une discrimination automatisée causée par un biais du système d’IA introduit lors du développement, par exemple lié à une performance moindre du système pour certaines catégories de personnes ;
le risque de produire du contenu fictif erroné sur une personne réelle, particulièrement important dans le cas des systèmes d’IA génératives, et pouvant avoir des conséquences sur sa réputation ;
le risque de prise de décision automatisée causée par un biais d’automatisation ou de confirmation dans le cas où les mesures d’explicabilité nécessaires ne sont pas prises lors du développement de la solution (comme la remontée d’un score de confiance, ou d’informations intermédiaires tel qu’une carte de saillance ou « saliency map ») ou si un agent utilisant le système d’IA ne peut pas prendre une décision contraire sans que cela ne lui porte préjudice ;
les risques liés aux attaques connues spécifiques aux systèmes d’IA tel que les attaques par empoisonnement des données, par insertion d’une porte dérobée, ou encore par inversion du modèle ;
les risques liés à la confidentialité des données susceptibles d’être extraites depuis le système d’IA ;
les risques éthiques systémiques et graves liés au déploiement du système, tels que les impacts sur le fonctionnement démocratique de la société, ou encore sur le respect des droits fondamentaux (par exemple en cas de discrimination), et pouvant être pris en compte lors de la phase de développement.
Enfin, le risque d’une perte de contrôle des utilisateurs sur leurs données accessibles en ligne, une collecte à large échelle étant souvent nécessaire à l’apprentissage d’un système d’IA, notamment lorsque celles-ci sont collectées par moissonnage ou web scraping.

Cas Spécifiques des Modèles de Fondation et des Systèmes à Usage Général

La CNIL met également en avant le cas des modèles de fondation et des systèmes d’IA à usage général. Bien que non classés automatiquement comme à haut risque, ces systèmes nécessitent souvent une AIPD du fait de leur large spectre d’applications et des incertitudes quant à leurs usages futurs.

Les risques pour les personnes dont les données sont traitées durant le développement, ou pour celles affectées par leur utilisation, rendent cette analyse essentielle.

L’article 35 du RGPD

Pour rappel, selon l’article 35 du Règlement Général sur la Protection des Données (RGPD), une AIPD devient obligatoire lorsque le traitement prévu peut créer un risque élevé pour les droits et libertés des individus.

Le Comité européen de la protection des données (CEPD) a établi des critères précis pour aider les responsables de traitement à déterminer la nécessité d’une AIPD.

La règle est que tout traitement de données personnelles répondant à au moins deux de ces critères nécessite une AIPD. Ces critères incluent des aspects particulièrement sensibles en phase de développement de l’IA :

La collecte de données sensibles ou hautement personnelles, comme les données de localisation ou financières, qui augmentent le risque d’atteinte aux droits et libertés.
La collecte massive de données personnelles.
La collecte de données concernant des personnes vulnérables, telles que les mineurs.
Le croisement ou la combinaison de différents ensembles de données.
L’emploi de technologies ou de solutions organisationnelles novatrices.

Il est déterminant de considérer les risques potentiels pour les individus liés à l’utilisation de bases de données d’entraînement et à leur mise en œuvre. Si des risques significatifs sont identifiés, tels que l’usage abusif des données, une violation de données, ou des situations pouvant mener à une discrimination, une AIPD est requise même si moins de deux critères sont rencontrés.

Inversement, si le responsable de traitement peut démontrer que le traitement n’expose pas à des risques élevés malgré la présence de deux critères, une AIPD peut ne pas être nécessaire.

En suivant ces directives, la CNIL a également publié une liste de traitements de données personnelles pour lesquels une AIPD est impérativement demandée, incluant ceux impliquant le profilage ou la décision automatisée, typiques des systèmes basés sur l’IA. Pour ces cas, la réalisation d’une AIPD est systématiquement requise

L’AIPD est imposée si l’IA est un usage innovant

Tous les déploiements d’IA ne correspondent pas nécessairement à un « usage innovant », critère clef parmi les neuf susceptibles de nécessiter la réalisation d’une Analyse d’Impact sur la Protection des Données (AIPD).

Ce concept est évalué en fonction de l’état actuel des connaissances technologiques et non strictement selon le contexte spécifique de son application.

Qu’est-ce qui Constitue un Usage Innovant ?

Un usage innovant en IA implique l’application de technologies qui apportent une nouveauté notable par rapport à l’état des connaissances actuelles. Ce n’est pas simplement l’adoption de nouvelles technologies par une organisation qui en fait un usage innovant. Il est essentiel de distinguer les utilisations courantes des applications véritablement novatrices pour déterminer si une AIPD est requise.

Systèmes IA Établis

Les systèmes qui utilisent des techniques d’IA bien établies et expérimentées ne sont généralement pas considérés comme innovants. Ces techniques incluent, par exemple, la régression, le clustering, ou les architectures de forêts aléatoires. Ces technologies sont bien comprises et les risques associés à leur utilisation sont largement connus.

Systèmes IA Émergents

À l’opposé, les systèmes exploitant des technologies émergentes comme l’apprentissage profond constituent un usage innovant. Ces technologies, bien qu’encore peu comprises et aux risques mal maîtrisés, représentent une avancée significative en termes d’innovation technologique. Les systèmes génératifs d’IA qui apprennent à partir de grandes quantités de données en sont un exemple, où les comportements ne peuvent être pleinement anticipés dans tous les contextes d’utilisation.

Illustration Pratique : IA dans le Domaine Médical

Prenons l’exemple d’un projet de recherche visant à développer des outils d’intelligence artificielle pour le traitement automatique du langage dans des applications cliniques. Utilisant de vastes ensembles de données (vocales, études cliniques, résultats médicaux), ce projet peut être considéré comme innovant, surtout en raison de l’incertitude entourant les résultats escomptés.

Le Traitement à Grande Échelle

Dans le cadre du développement de systèmes d’intelligence artificielle (IA), la question de savoir si l’entraînement implique un traitement à grande échelle est aussi importante pour la conformité au Règlement Général sur la Protection des Données (RGPD).

La définition du traitement à grande échelle fait référence au traitement d’un volume considérable de données à caractère personnel qui impacte un nombre important de personnes à un niveau régional, national, ou supranational.

Critères de Définition d’un Traitement à Grande Échelle

Selon le RGPD, un traitement à grande échelle doit remplir certains critères, notamment en termes de volume et de portée des données personnelles traitées, ainsi que de l’impact potentiel sur les personnes concernées. Cependant, la simple utilisation d’un grand volume de données pour l’entraînement d’un système d’IA ne suffit pas toujours pour qualifier l’opération de traitement à grande échelle.

Exemple de Non-qualification

Prenons l’exemple d’un organisme de recherche qui compile une vaste base de données de photos de paysages pour améliorer les systèmes de vision par ordinateur.

Même si cette base contient des millions d’images, le nombre limité d’images incluant des personnes reconnaissables (et donc des données personnelles) peut signifier que le traitement ne relève pas de la catégorie à grande échelle. Toutefois, une Analyse d’Impact sur la Protection des Données (AIPD) peut être requise selon d’autres critères.

Exemple de Qualification

À l’inverse, considérons un fournisseur développant un modèle de langue (LLM) utilisant un grand volume de données personnelles collectées par web scraping. Si les données traitées concernent un très grand nombre de personnes et sont issues de sources publiquement accessibles, ce type de traitement peut être considéré comme à grande échelle, compte tenu de la quantité de données personnelles impliquées et de leur accessibilité.

Implications pour l’AIPD

Il est essentiel pour les organisations impliquées dans le développement de systèmes d’IA de bien évaluer si leur traitement des données répond aux critères de « traitement à grande échelle ». Cette évaluation influencera la nécessité de réaliser une AIPD, un processus qui aide à identifier et minimiser les risques associés à la protection des données personnelles.

AIDP : les mesures spécifiques au domaine de l’IA

Lorsque l’AIDP s’impose certaines mesures spécifiques au domaine de l’IA – en particulier d’ordre technique – pourront être mise en œuvre, parmi lesquelles :

des mesures de sécurité, telles que le chiffrement homomorphe ou l’utilisation d’un environnement d’exécution sécurisé ;
des mesures de minimisation, telles que le recours à des données synthétiques ;
des mesures d’anonymisation ou de pseudonymisation, telles que la confidentialité différentielle ;
des mesures de protection des données dès le développement, telles que l’apprentissage fédéré ;
des mesures facilitant l’exercice des droits ou les recours pour les personnes, telles que les techniques de désapprentissage machine, ou les mesures d’explicabilité et de traçabilité des sorties du systèmes d’IA ;
des mesures d’audit et de validation, reposant par exemple sur des attaques fictives de type « red teaming », notamment pour identifier et corriger les biais ou les erreurs en défaveur de certaines personnes ou catégories de personnes.

D’autres mesures, plus génériques, pourront également être appliquées :

des mesures organisationnelles, telles que l’encadrement et la limitation de l’accès aux bases de données d’apprentissage et pouvant permettre une modification du système d’IA, la limitation de l’accès aux données par les tiers et les sous-traitants ;
des mesures de gouvernance, telles que la mise en place d’un comité éthique ;
des mesures de traçabilité des actions effectuées afin d’identifier et d’expliquer les comportements anormaux ;
des mesures prévoyant une documentation interne, comme la rédaction d’une charte informatique.