Il y a quelques semaines, le Parlement européen s’est prononcé pour l’IA act (523 votes pour, 46 contre et 49 abstentions). Thierry Berthier, chercheur en cybersécurité, également pilote du groupe « Sécurité Intelligence Artificielle » du Hub France IA a accepté de répondre à nos questions et analysé les grands principes de cette nouvelle législation : une critique constructive qui permet de bien cerner les atouts et les écueils du texte.
The European Scientist : Le texte de l’IA Act voté par le Parlement européen ambitionne de « protéger les droits fondamentaux, la démocratie, l’État de droit et la durabilité environnementale contre les risques liés à l’intelligence artificielle (IA) » Quelle est votre analyse ? L’UE s’illustre en étant la première à mettre en place ce genre de législation peut-on s’en satisfaire ?
Thierry Berthier : Effectivement, fidèle à sa réputation, l’Europe a conservé sa pôle position dans sa capacité à produire du règlement et de la norme. Il s’agit plus d’un constat que d’une critique. Les progrès récents de l’IA générative sont tels qu’ils impactent et vont impacter tous les segments d’activités humaines (économiques, industriels, recherche et développement, ingénierie, médical, …). La puissance et l’impact des LLM (GPT4, Llama 2, Midjouney, Dall-E2) sont si importants sur nos sociétés qu’il est indispensable de fixer un cadre réglementaire, a minima, sur l’utilisation des données et le respect de la vie privée. C’est chose faite avec le vote très majoritaire de l’AI Act. On peut prédire qu’une version plus allégée du AI Act verra sans doute le jour outre-atlantique car les premiers producteurs de grands modèles d’IA générative (donc les premiers concernés par leurs dérives potentielles) sont américains. Le AI Act contient beaucoup de clauses de cas et de sous-cas, ce qui n’est pas anormal au regard de la complexité du domaine à réguler.
Au cœur de cette régulation, un point me semble fondamental : celui de la provenance des données qui ont servi à entrainer (et qui servent à entrainer en ce moment même) les LLM. Quelles sont ces données ? Ont-elles fait l’objet d’un achat ou d’une transaction financière ? Ont-elles été « récupérées » à partir de données publiques libres de droits ? Y a-t-il eu une forme de consentement de la part des producteurs de données que nous sommes tous ? La réponse n’est évidemment pas claire du tout, à l’image de l’extraordinaire interview donnée par Mura Murati, CTO d’OPEN AI !
Quand une journaliste lui demande comment le modèle SORA a été entrainé et à partir de quelles données vidéos, la panique s’installe dans ses yeux, elle « sort les rames », se rend compte que cette question était prévisible et qu’elle n’a pas bien anticipé le « piège ». La question sous-jacente était : OPEN AI a-t-il utilisé l’immense réservoir de vidéos Youtube pour entrainer SORA ? Si oui, avec quel accord commercial ? On observe, sur ce cas d’école, la nécessité d’une régulation dans la captation et l’usage des données utilisées pour entrainer les LLM. Le AI Act s’applique tout au long de la chaine de fabrication des LLM jusqu’à leur mise en production avec une classification par niveau de risque de l’IA : l’IA à risque inacceptable, l’IA à risque limité, l’IA sans risque a priori (*).
L’IA interdite concerne en particulier : les systèmes de notation sociale et l’IA manipulatrice. On comprend que l’Europe ne souhaite pas reproduire le modèle chinois, mais la définition d’IA manipulatrice reste assez floue. Les mauvais esprits pourraient d’ailleurs rétorquer qu’une IA est par nature manipulatrice puisque ses sorties vont influencer la perception de l’utilisateur et potentiellement ses actions futures, s’il se sert de l’IA pour les arbitrer. Donc le concept d’IA manipulatrice me semble particulièrement flou et contestable.
TES. : Pour résumer les trois grands axes de cette loi, il y a les applications interdites (par exemple la reconnaissance faciale), les applications jugées à haut risque (en raison de leur préjudice potentiel important pour la santé, la sécurité, les droits fondamentaux, l’environnement, la démocratie et l’État de droit), et des exigences de transparence (notamment à propos des droits d’auteurs). Que pensez-vous de ce cadre ?
TB. : La question des droits d’auteur est effectivement centrale. Il existe un risque réel de dilution de la production de contenus d’origine humaine dans un marécage de données dont l’origine devient au fil du temps de plus en plus intraçable et non humaine. Le volume global de données synthétisées produites par des IA génératives va dépasser rapidement le volume des données produites par des utilisateurs humains. Le ratio global Volume de Données d’origine humaine / Volume Total de données va décroitre et c’est sur ce point qu’une traçabilité sur l’origine d’une donnée prendrait tout son sens. Il existe des techniques cryptographiques de tatouage ou de marquage numérique d’une image ou d’une vidéo qui pourraient apporter un début de réponse. L’association avec une blockchain de traçabilité pourrait garantir la propriété intellectuelle d’une œuvre d’art numérique, par exemple.
D’une manière générale, il est difficile de cartographier précisément le risque associé à une plateforme embarquant des composantes d’apprentissage automatique. Il faut d’ailleurs, en plus du risque, pouvoir mesurer l’impact et s’appuyer sur une double mesure « Risque-Impact ».
L’interdiction unilatérale de la reconnaissance faciale est contestable si elle vient impacter, même indirectement, nos capacités de lutte contre la criminalité et le terrorisme. Une interdiction totale aurait un très mauvais impact sur la filière des outils de sécurité. C’est tout un segment de l’industrie de la « Computer Vision » que l’on risque de tuer en Europe, laissant cette spécialité sensible aux concurrents et géants américains et asiatiques. Nous devons donc faire preuve de modération dans notre volonté d’installer le principe de précaution numérique à tous les étages de la maison Europe.
Il faut garder à l’esprit que ce que l’on interdit par décret ou par réglementation existera ailleurs, sera développé de manière clandestine par d’autres, et sera systématiquement utilisé si cette application de l’IA apporte des compétences et des performances nouvelles. « La prohibition renforce toujours ce qu’elle interdit ». Il faut tenir compte de ce proverbe de bon sens.
TES. : On sait que les pays membres de l’UE ont des lacunes en termes d’IA, et leur souveraineté numérique est menacée, malgré l’existence de quelques pépites. Que pensez-vous du volet encouragement à l’innovation de cette loi ? Sera-t-il suffisant ?
T.B. : Tout encouragement à l’innovation est bon à prendre. L’Europe a pris un grand retard en matière d’IA générative. Les géants américains ont beaucoup d’avance sur la tech européenne. On oublie souvent que Google est l’inventeur de l’architecture Transformer à la base des LLM qui a ensuite été exploitée et valorisée par OpenAI au travers des succès planétaires de GPT3.5, GPT4 et des produits dérivés. Les récentes grosses levées de fonds réalisées par des équipes françaises se sont appuyées sur des fonds américains puis sur des accords avec Microsoft. Il me semble alors difficile de parler de souveraineté numérique européenne quand la centaine de millions de dollars provient d’investisseurs américains. La réalité du terrain nous montre que l’investissement européen n’est pas à la hauteur des enjeux de la révolution de l’IA et de la robotique. Une startup européenne débutant un projet d’IA saura trouver les premiers financements en Europe mais aura beaucoup plus de mal à organiser ses levées de fonds de rang B, C, D à l’aide de vecteurs financiers européens. Elle devra nécessairement regarder du côté des Etats-Unis ou de l’Asie pour poursuivre son développement et entrer dans la cour des grands. Comme dans tout projet humain, le talent individuel et le niveau de créativité ne suffisent pas à assurer le succès, il faut aussi un peu de chance pour rencontrer les bons interlocuteurs, il faut de la force de persuasion pour convaincre de nouveaux investisseurs et de l’agilité pour rentrer sur les bons marchés. Il est plus facile de réunir ces bonnes étoiles en Silicon Valley qu’en France ou en Europe, malheureusement… Par ailleurs, nous avons parfois beaucoup de mal à nous doter des bonnes métriques permettant de détecter en avance de phase, les projets, technologies les plus innovantes et celles qui auront le plus de chance de rencontrer le succès. Ces métriques existent. Elles ne s’appuient que sur la mesure de la performance et rejettent toute influence de connivence. La connivence dans l’arbitrage est le plus grand des poisons. L’Europe doit commencer par se doter de métriques performantes qui permettent de « voir l’avenir » d’une startup et d’un projet technologique à deux ans puis cinq ans, avec une probabilité acceptable. Cette approche projective nous permettrait de mieux sélectionner les vraies pépites européennes et d’éviter les accidents industriels qui existent encore en 2024 en France.
Pour terminer sur une note positive, je suggère au lecteur de surveiller l’actualité de la filière robotique française qui compte plusieurs champions de niveau international et qui n’ont bénéficié d’aucune aide particulière pour atteindre le sommet mondial. Ces sont des champions Darwiniens qui n’ont compté que sur leur excellence pour survivre dans une nature concurrentielle hostile. Les roboticiens français ne sont pas en retard sur les leaders mondiaux, ils en font partie !
Image par ThankYouFantasyPictures de Pixabay
Du même auteur
La Querelle Raoult (Série) : Le Big Data, une fantaisie délirante ?
Encore plus effrayant que l’IA Militaire, l’IA Président de la République ?
This post is also available in: EN (EN)