CRCANR5L17S2026PO878304N005

— 1 —

La séance est ouverte à onze heures quarante-cinq.

Mme Isabelle Rauch, vice-présidente. Nous poursuivons nos auditions en recevant Mme Soizic Pénicaud, cofondatrice de l’Observatoire des algorithmes publics (Odap), qui crée et rassemble des informations sur les algorithmes utilisés par les administrations françaises afin d’en accroître la transparence. Je vous remercie par avance, madame Pénicaud, de rappeler au cours de votre propos liminaire, et avant de commencer nos échanges, l’origine de cette initiative, ses objectifs et ses réalisations.

Auparavant, je rappelle que cette audition est ouverte à la presse et fait l’objet d’une retransmission vidéo en direct. L’article 6 de l’ordonnance du 17 novembre 1958 relative au fonctionnement des assemblées parlementaires impose aux personnes auditionnées par une commission de prêter le serment de dire la vérité, toute la vérité, rien que la vérité. Je vous invite donc à lever la main droite et à dire : « Je le jure ».

(Mme Soizic Pénicaud prête serment).

Mme Soizic Pénicaud, cofondatrice de l’Observatoire des algorithmes publics. Je vous remercie pour cette invitation à propos d’un sujet crucial et d’actualité. J’ai créé l’Observatoire des algorithmes publics en novembre 2024 avec Camille Girard-Chanudet, sociologue et post-doctorante au Centre d’études de l’emploi et du travail (CEET), et Estelle Hary, designer et chercheuse au Royal Melbourne Institute of Technology. L’Odap est une association à but non lucratif, totalement bénévole et indépendante, qui ne bénéficie d’aucune source de financement. Je mène par ailleurs des activités de conseil et de recherche en politique publique du numérique, plus particulièrement sur les enjeux éthiques et les politiques de l’intelligence artificielle, notamment dans le secteur public. Je travaille avec des associations, des institutions publiques, des fondations et des journalistes. Je suis également enseignante à l’École d’affaires publiques de Sciences Po Paris, et j’ai auparavant travaillé à la direction interministérielle du numérique (Dinum).

Nous avons créé l’Odap sur la base d’un constat : en dépit d’un usage croissant des algorithmes et de l’IA dans le secteur public, très peu d’informations sont rendues publiques à leur sujet par les administrations qui les acquièrent, les développent ou les utilisent. Qu’entendons-nous lorsque nous parlons d’algorithmes publics ? Nous désignons par ce terme tout type de système permettant d’automatiser, même partiellement, des actions ou la production de résultats.

Permettez-moi de citer quelques exemples très concrets. Cela commence par des systèmes utilisés depuis soixante ans par l’administration, comme ceux qui calculent les prestations sociales ou les impôts. On peut ensuite penser à des systèmes impliqués dans la prise de décision, où l’on distingue deux grands cas d’usage. Le premier est la mise en correspondance entre une offre et une demande : c’est le cas de Parcoursup pour l’attribution des places dans l’enseignement supérieur, ou encore de l’attribution des greffes, qui met en relation l’offre de greffons et les demandes des patients. Le second cas d’usage, qui suscite encore plus de débats, concerne les systèmes permettant de prédire des situations en se basant sur des cas passés. Ainsi de l’algorithme de ciblage utilisé par la Caisse nationale des allocations familiales (Cnaf) pour contrôler les allocataires, ou encore l’algorithme Signaux faibles, utilisé par la direction générale des entreprises (DGE) pour identifier des entreprises qu’il est nécessaire d’accompagner pour prévenir leur faillite.

Il existe également des systèmes qui, sans participer directement à une prise de décision, automatisent certaines tâches. C’est le cas des algorithmes de pseudonymisation qui permettent de publier des décisions de justice expurgées de données personnelles ou réidentifiantes, ou bien des algorithmes utilisés par l’Institut national de l’audiovisuel (INA) pour retranscrire les enregistrements vidéo d’archives. Enfin, depuis 2023, nous assistons à l’avènement de systèmes d’IA générative, capables de produire des contenus variés – images, sons, textes –, de réaliser des transcriptions ou des traductions. Ces systèmes revêtent une importance potentiellement considérable pour l’administration, par exemple pour la transcription dans des contextes sensibles tels que les auditions judiciaires.

L’Odap constate que la transparence de ces divers systèmes est lacunaire. Par transparence, on pense spontanément à la transparence technique – celle des codes sources, des données. Mais l’Odap appréhende la question de la transparence de manière plus large : elle englobe l’existence même de ces systèmes, leurs budgets, leurs concepteurs, leurs infrastructures, et enfin leurs effets et leur évaluation. Cette opacité persiste en dépit de l’existence en France d’un cadre légal pionnier sur la transparence des algorithmes publics depuis la loi n° 2016-1321 du 7 octobre 2016 pour une République numérique. Ce cadre spécifique ne recouvre pas tous les usages que j’ai mentionnés, mais il dénote toutefois la volonté de la France d’être pionnière en la matière.

Sur la base de ce constat, l’Odap s’efforce d’améliorer la transparence de ces systèmes, en créant et rassemblant des informations sur les algorithmes utilisés par les administrations. L’une de nos actions phares, lancée en 2024, est un inventaire des algorithmes, dont l’édition 2025 a été réalisée par soixante-dix contributeurs bénévoles. Nous organisons par ailleurs des conférences, des interventions publiques, des entretiens avec des chercheurs sur l’automatisation du service public, et nous travaillons avec des collectifs et des organisations externes à l’administration pour les outiller sur ces sujets.

L’Odap n’a pas été créé dans le but d’effectuer à sa place le travail de l’administration en matière de transparence des algorithmes publics. Notre objectif se limite à réduire l’asymétrie d’information qui existe entre l’État et la société civile. En outre, nous ne tenons pas la transparence pour une fin en soi. Il s’agit avant tout d’un prérequis nécessaire mais non suffisant pour parvenir à une meilleure maîtrise de ces outils. Enfin, notre travail vise à démontrer que les algorithmes publics ne sont ni neutres ni autonomes. Ils sont le produit de choix, qui sont toujours des choix politiques.

Pour terminer ce propos liminaire, j’aimerais souligner trois points qui me paraissent intéressants.

Premièrement, il est à mes yeux essentiel de poser la question du « pourquoi », du recours au numérique et à l’automatisation, en même temps que celle du « comment ». En effet, l’enjeu n’est pas seulement de concevoir des systèmes totalement maîtrisés et immunisés contre les ingérences étrangères, mais aussi de s’interroger sur les services publics que nous souhaitons pour notre pays, et sur les objectifs de l’utilisation du numérique et des algorithmes en leur sein. Ces questions sont ardues, et surgissent au cœur d’une actualité particulière, mais je suis sensible à votre invitation à présenter nos travaux devant une commission d’enquête sur l’évaluation des dépendances et des vulnérabilités de la France en matière de numérique, parce qu’elle dénote la volonté de ne pas renoncer à une nuance et à une complexité d’autant plus précieuse que le contexte est tendu.

Deuxièmement, il importe de ne pas limiter la réflexion sur les algorithmes publics et l’automatisation aux questions des biais et des conséquences sur les individus ou les agents publics. Je vous invite au contraire à appréhender le sujet sous l’angle des infrastructures, à la fois celles sur lesquelles les algorithmes publics s’appuient – stockage et utilisation des données, acteurs de la conception des systèmes –, et celles que l’usage des algorithmes publics favorise. En effet, l’automatisation reposant sur une collecte et un stockage de données toujours plus importants, il est indispensable de questionner le type d’infrastructures qu’elle implique. De même, le choix des partenaires économiques avec lesquels l’État et l’administration choisissent de collaborer n’est pas neutre du point de vue des modèles économiques et des politiques industrielles.

Troisièmement, l’IA générative, qui capte l’attention aujourd’hui, est en quelque sorte l’arbre qui cache la forêt de l’automatisation globale des services publics. Elle masque des projets techniquement moins complexes, reposant sur des méthodes statistiques compréhensibles par le plus grand nombre, mais qui entraînent d’importantes conséquences sur la vie des citoyens. Je pense par exemple à l’algorithme d’attribution de scores de risque de la Cnaf, que j’ai mentionné précédemment, qui repose sur une simple régression logistique, mais qui naturellement est susceptible d’affecter fortement les citoyens. C’est pourquoi j’insiste sur l’importance d’appréhender le concept d’algorithme public dans sa globalité, et de ne pas laisser sous les radars des systèmes moins spectaculaires que l’IA, mais dont les effets sont majeurs.

Mme Isabelle Rauch, vice-présidente. Je vous remercie, madame Pénicaud, pour cette introduction. J’aimerais, avant de laisser la parole à Mme la rapporteure, vous poser une question. Vous avez mentionné votre volonté de réduire l’asymétrie d’information. Pourriez-vous préciser à qui s’adresse cette démarche ? S’agit-il du citoyen, ou de professionnels qui pourraient servir d’interface avec la société civile ? Comment votre association se fait-elle connaître ?

Mme Soizic Pénicaud. Notre public est double : nous nous adressons à la fois aux citoyens et aux organisations intermédiaires, comme les associations spécialisées dans certaines politiques publiques. Une association s’intéressant aux politiques publiques du logement, par exemple, pourrait se rapprocher de l’Odap pour mieux comprendre l’impact de l’automatisation sur ses missions. Notre objectif est de rendre ce sujet technique accessible en montrant que la question des algorithmes publics n’est pas si différente de celles qui portent sur d’autres instruments de politique publique. Concrètement, nous expliquons le fonctionnement des systèmes et nous orientons aussi vers d’autres sources d’information. Pour l’heure, notre activité prend la forme de conseils informels et personnalisés. Nous travaillons également à l’élaboration de ressources de formation destinées à permettre à toute personne qui le souhaite de faire usage des moyens légaux pour adresser des demandes d’information ou des demandes d’accès aux documents administratifs.

Nous nous concentrons sur les collectifs parce que nous pensons qu’ils sont déjà en lien avec le public et capables à ce titre d’assurer un travail de vulgarisation, alliant leur expertise d’un secteur de politique publique à l’éclairage technique que nous leur apportons. Nous ne revendiquons pas une expertise sur l’ensemble des politiques publiques menées par l’administration.

Mme Cyrielle Chatelain, rapporteure. J’aimerais que l’on s’arrête sur ce mot, algorithme, qui peut susciter une certaine appréhension et qui évoque une certaine complexité technique. Les exemples que vous avez mentionnés, depuis Parcoursup jusqu’au don d’organes en passant par le ciblage de la Cnaf, témoignent de l’ancrage de longue date des algorithmes dans l’administration publique et les prises de décisions. Qu’est-ce qui a changé, selon vous, pour que ces algorithmes qui existent depuis longtemps deviennent aujourd’hui un sujet aussi politique ? Est-ce en raison d’une évolution de leur place dans la prise de décision, ou bien parce qu’ils sont désormais bien plus complexes ?

Mme Soizic Pénicaud. Lorsque j’ai commencé à travailler sur les algorithmes publics, vers 2017, ce sujet n’était pas très présent dans le débat public. Il l’est devenu davantage à partir du lancement de Parcoursup, qui a remplacé le portail admission post-bac (APB) en 2018, et a pris de l’ampleur avec l’apparition en 2022 de l’IA générative grand public qui, comme je l’ai indiqué, monopolise quelque peu l’attention au détriment de la notion d’algorithme.

Le recours croissant à des algorithmes à visée prédictive et l’utilisation de systèmes d’IA générative pour des tâches relativement anodines, mais qui ne sont pas sans effets, ont certainement fait entrer ces sujets dans les consciences. Mais je pense que l’évolution de notre rapport à ces sujets dépend aussi d’un travail de mise à l’agenda du débat public, auquel ont contribué certaines affaires ayant trouvé un écho médiatique, et donc politique – je pense à Parcoursup et à la Cnaf en France, mais d’autres affaires en Europe ont également attiré l’attention.

Il est certain que les systèmes ont, ces dernières années, gagné en complexité et en capacité à traiter un grand nombre de données, du fait des progrès technologiques. Mais il me semble que la prise de conscience de la nature politique de ces systèmes n’est pas nécessairement liée aux progrès informatiques eux-mêmes. La vidéosurveillance algorithmique (VSA) et la reconnaissance faciale l’illustrent bien.

Mme Cyrielle Chatelain, rapporteure. Notre commission d’enquête s’est donné pour objets les questions de dépendance et de vulnérabilité dans le secteur numérique : il me semble que les problèmes liés aux algorithmes publics relèvent avant tout de la vulnérabilité. Néanmoins, pensez-vous qu’il existe également un sujet de dépendance, dans la mesure où les concepteurs d’algorithmes et d’outils comportant des algorithmes sont principalement des structures extracommunautaires ? Ou bien, finalement, peut-on dire que les risques liés à la vulnérabilité et ceux liés à la dépendance se mêlent ? Je pense au cas où un algorithme développé par un opérateur extracommunautaire est implémenté par l’administration française et impliqué dans l’aide à la décision publique.

Mme Soizic Pénicaud. Les systèmes dont nous parlons sont divers, et certaines de leurs caractéristiques se recoupent, créant différentes formes des vulnérabilités, notamment une illusion de neutralité et d’objectivité. En matière de dépendance et de vulnérabilité, il importe de tenir compte des chaînes de sous-traitance impliquées dans le développement d’un certain nombre d’algorithmes publics. En effet, la mise en œuvre de l’automatisation dans le secteur public entraîne une collecte et un partage de données entre administrations. Rares sont les systèmes algorithmiques développés et utilisés uniquement en interne. Pour les individus, cela signifie que plus ils sont en contact avec l’État, et plus l’État collecte de données sur eux, notamment dans le cadre des systèmes de protection sociale. Des chaînes de sous-traitance, avec des prestataires et des sous-traitants de prestataires, sont impliquées dans cette collecte, ce qui crée une multitude de points de vulnérabilité en matière de protection des données personnelles. S’agit-il de points de vulnérabilité par rapport à des puissances étrangères ? Il est difficile de l’affirmer, parce que les informations manquent sur les prestataires impliqués dans ces systèmes.

Le rapport de la Cour des comptes sur la souveraineté numérique mentionne le cas de FranceConnect, qui n’est pas un algorithme mais qui participe à la mise en données de l’administration : un sous-traitant du prestataire chargé d’assister la Dinum dans le développement de FranceConnect avait effectué une copie des données utilisateurs de ce service de l’État sur son propre système dans le but de réaliser des statistiques sur le traitement de demandes de support. Ce sous-traitant a été victime d’une attaque informatique et ces données ont été dérobées – voilà un exemple de vulnérabilité liée aux chaînes de sous-traitance.

L’affaire de la caisse des allocations familiales (CAF) de Gironde en 2023 en est une autre illustration : la CAF avait envoyé des données sur ses allocataires à un prestataire qui les a mises en ligne en pensant qu’il s’agissait de fausses données. C’est ainsi que les données personnelles de 10 000 allocataires se sont retrouvées en ligne durant des années, jusqu’à ce que la cellule d’investigation de Radio France révèle cette affaire.

Développer des systèmes en interne, en France, ne prémunit pas contre certains risques, en raison du stockage des données qui requiert de recourir à des prestataires de cloud, notamment Microsoft Azure. Le problème ici, se rapporte à l’absence d’informations sur les lieux de stockage des données, et au défaut d’évaluation et d’analyse de l’impact de ce stockage sur la protection des données personnelles. Je renvoie sur ce point au rapport de la Cour des comptes sur France Travail, qui montre bien que certaines administrations ne produisent pas les analyses nécessaires à l’évaluation des risques inhérents au stockage.

Les systèmes de mise en données sont susceptibles de mener à des détournements de l’usage initialement prévu des données. Au Royaume-Uni, récemment, on a utilisé des données récoltées par des compagnies aériennes pour lutter contre la fraude sociale. Or ces données ont été mal interprétées, ce qui a conduit notamment à accuser des familles d’Irlande du Nord de déserter le pays parce qu’elles étaient parties en voyage depuis un aéroport, avant de rentrer chez elles via un autre aéroport. Un tel problème est susceptible de se produire en France, car la tentation d’utiliser des données récoltées à d’autres fins est grande.

Notre système numérique n’est bénéfique pour les individus que dans la mesure où l’on peut faire confiance à l’État. Or il arrive que l’État utilise des données à des fins potentiellement coercitives, voire illégales. Ainsi l’administration Trump, aux États-Unis, a détruit les données publiques disponibles et la transparence de l’administration américaine. Dans le même temps, elle a instrumentalisé les bases de données existantes, en créant notamment des interconnexions entre les bases de données de la sécurité sociale et les bases de données des services de l’immigration. On a également appris qu’un membre du Department of Government Efficiency (Doge), cette équipe menée par Elon Musk, a emporté les données de la sécurité sociale américaine sur une clé USB. De tels agissements sont naturellement interdits, et l’on se croit facilement à l’abri de ce type de dérives. Or, si l’on s’inquiète des risques en termes de maîtrise, de dépendance et de vulnérabilité, il importe d’être particulièrement attentif aux infrastructures que l’on bâtit, parce qu’elles sont susceptibles d’ouvrir la porte à de potentielles dérives.

Appréhender ces risques est d’autant plus difficile que les administrations mettent à disposition très peu d’informations sur l’évaluation de leurs systèmes, en termes d’effets, d’indicateurs de performance, de dépendances ou de maîtrise. Ce caractère lacunaire des informations rendues publiques explique pourquoi l’Odap s’efforce de chercher des informations auprès d’autres acteurs – des chercheurs, des associations, ou encore des collectifs de journalistes.

M. Philippe Latombe (Dem). Vous avez évoqué l’algorithme de Parcoursup, que l’administration a refusé de publier, un choix entériné par une décision de justice motivée par l’existence d’un risque lié à des failles de sécurité. Cet exemple m’amène à vous interroger, madame Pénicaud, sur l’équilibre entre la prévention contre le risque cyber, qui est un risque d’empoisonnement du modèle susceptible de générer des effets indésirables pour nos concitoyens, et l’exigence de transparence. À cet égard, quel rôle la Commission nationale de l’informatique et des libertés (Cnil) et la Commission d’accès aux documents administratifs (Cada) jouent-elles dans le contrôle des algorithmes ? Je rappelle que, dans le cas de Parcoursup, la Cada s’était exprimée en faveur d’une publication de l’algorithme, avant que le tribunal lui donne tort.

Par ailleurs, quels sont les algorithmes sur lesquels, selon vous, la France doit conserver sa souveraineté ? Vous avez cité l’exemple de l’INA, qui recourt à des algorithmes pour sous-titrer et indexer des vidéos. Pour de telles tâches, a-t-on véritablement besoin de développer un outil totalement souverain ? Ne peut-on se contenter des outils de marché qui, étant nombreux, réduisent le risque de dépendance ? Dans l’exemple de la Cnaf, il semble au contraire impératif de disposer d’outils souverains, parce qu’un algorithme américain, conçu dans le cadre d’un autre modèle social, n’est pas sans conséquence sur le nôtre. Les Néerlandais, qui ont connu de sérieux problèmes en la matière, le savent bien.

Enfin, le secteur public doit-il se positionner simplement en maîtrise d’ouvrage sur le développement des algorithmes ? Ou bien doit-il être également maître d’œuvre ? Le cas échéant, disposons-nous, au sein de l’État, des compétences et des budgets requis par ce type de développement ?

Mme Soizic Pénicaud. L’administration a en effet mis en avant des questions de cybersécurité pour justifier son refus de publier des algorithmes. À cet égard, l’exemple britannique est instructif. Les Britanniques ont construit un inventaire centralisé des algorithmes publics, et ont développé des bonnes pratiques à destination des administrations. Concernant le risque cyber, ils estiment qu’il est préférable de patcher les algorithmes plutôt que de refuser de les publier. En d’autres termes, ils considèrent qu’il est possible de maîtriser le risque de vulnérabilité informatique, notamment le risque relatif au code source, et qu’il ne constitue pas un obstacle à la transparence.

Sur le plan du contrôle des algorithmes, il convient de citer, outre la Cada et la Cnil, le Défenseur des droits, notamment à propos des biais et des discriminations, parce que le règlement européen sur l’intelligence artificielle prévoit qu’il joue un rôle important dans le cadre de l’article 77 sur la protection des droits fondamentaux.

La Cada n’a pas obtenu gain de cause auprès du tribunal dans le cas de Parcoursup, et en réalité aucune sanction n’est prévue à l’encontre des administrations si elles ne mettent pas en œuvre le cadre légal de la transparence des algorithmes publics. C’est la raison pour laquelle, en matière d’accès aux documents administratifs, il serait pertinent de réfléchir à un renforcement des moyens et des pouvoirs de la Cada.

L’INA n’a pas développé son propre modèle, et pour retranscrire ses vidéos il utilise, je crois, Whisper, une application locale développée par OpenAI. Le système est d’ailleurs très bien documenté sur le site data.ina.fr. La question du rapport entre les secteurs public et privé est renouvelée par l’arrivée de l’IA générative. Les systèmes prédictifs employés par la Cnaf, par exemple, s’appuient sur des données internes, mais l’IA générative implique une chaîne de production plus complexe, qui suppose l’usage de modèles commerciaux sans licence d’exploitation. Il apparaît en effet problématique que la Cnaf utilise des modèles étrangers pour effectuer des prédictions, puisque le contexte de développement des outils diffère du contexte de leur application. Dans l’exemple néerlandais, il convient de rappeler qu’un modèle avait été développé en interne, mais il fonctionnait très mal.

Quant à savoir si le secteur public devrait être maître d’ouvrage et maître d’œuvre, et si l’État est suffisamment armé en budgets et en compétences pour cela, je ne suis pas en mesure de vous répondre précisément. Lorsque je travaillais à la Dinum, j’avais coordonné un programme intitulé « entrepreneur d’intérêt général », qui visait à réinternaliser les compétences techniques dans l’administration, c’est-à-dire de compter au sein de l’administration sur des personnes capables de développer des outils, et capables de les comprendre. Il importe d’accroître les compétences sur le plan technique, mais aussi au regard des enjeux de dépendance, de droits fondamentaux, de conformité vis-à-vis du cadre légal et de responsabilité des usages. Or l’administration a tendance à compartimenter les compétences, et séparer ceux qui font de ceux qui s’intéressent aux conséquences, aux usages et aux droits fondamentaux. Je pense qu’il convient d’éviter ce travers.

De même, il serait pertinent de mieux outiller les équipes du Défenseur des droits sur ces sujets. La Cnil dispose d’une équipe très compétente, qu’il serait utile de renforcer également. Enfin, il me semble qu’une réflexion devrait être conduite au sein des ministères, à la fois sur la mise en œuvre et sur l’encadrement des systèmes, de manière à disposer d’une infrastructure de soutien solide et cohérente en termes d’accompagnement des administrations.

M. Arnaud Saint-Martin (LFI-NFP). Je vous remercie, madame Pénicaud, pour le travail effectué par l’Odap, qui me semble salutaire et d’utilité publique. J’aimerais revenir sur l’exemple britannique, que vous avez cité, et sur les bonnes pratiques observées à l’étranger. Quelles seraient, selon vous, les stratégies les plus efficaces pour renforcer le contrôle démocratique sur la production et l’usage des algorithmes publics ? Quels sont les pays les plus avant-gardistes dans ce travail nécessaire pour renforcer la compréhension et la réflexivité collective autour de ces technologies désormais disséminées partout ? Un travail d’inventaire a vocation à s’étendre toujours plus, et d’ailleurs la base de données que vous entretenez sur le site de l’Odap n’est pas exhaustive.

J’aimerais par ailleurs vous entendre plus longuement sur la résistance à la transparence dont fait parfois preuve l’administration. Certains usages problématiques des algorithmes, à l’image de la surveillance algorithmique, expliquent sans doute ce refus organisé et délibéré de transparence. Comment ce refus de transparence prend-il forme selon les différentes administrations ? Qu’est-ce que cela dit de la production de l’action publique ? Je pense en particulier à la Cnaf, qui pratique un contrôle social sur ce que certains nomment les « assistés », ce qui n’est pas dicible du point de vue politique.

S’interroger sur la résistance à la publicité des algorithmes, c’est aussi s’interroger sur notre capacité à rendre public le fonctionnement des algorithmes publics. À cet égard, le combat mené par l’Odap me semble important, mais les forces dont il dispose paraissent disproportionnées par rapport à ces technologies invasives. Dès lors, comment généraliser ce travail de publicisation des algorithmes, comment exercer ce contrôle démocratique à une autre échelle ?

Mme Soizic Pénicaud. L’Odap n’a pas vocation à travailler directement sur la manière dont les administrations mettent en œuvre la transparence. Mais à titre personnel, j’observe dans mon métier un réel développement des initiatives d’inventaire et de cartographie interne aux administrations. Les Britanniques et les Néerlandais sont assez avancés dans ce domaine, ces derniers ayant dressé un inventaire avec 1 384 systèmes, ce qui ne les a pas empêchés de faire face, encore très récemment, à un nouveau scandale lié à un système prédictif. Quant à l’inventaire de l’Odap, il ne recense que 120 systèmes. Il n’a cependant pas vocation à être exhaustif, puisque l’Odap considère qu’il appartient avant tout à l’administration de remplir ses obligations en matière de documentation et de mise à disposition des informations.

Avant de réfléchir à une massification de la publicisation, il convient par conséquent de s’interroger sur la documentation des algorithmes. Celle-ci, parce qu’elle n’est pas systématisée, ne permet pas de cartographier les dépendances et les vulnérabilités dans leur ensemble, c’est-à-dire qu’elle n’englobe pas les questions liées à aux infrastructures, aux prestataires, aux éditeurs et aux modèles de fondation utilisés.

Cependant, le règlement européen sur l’intelligence artificielle (RIA) introduit des obligations en matière de documentation qui pourraient être intéressantes. Le RIA comporte des limites, mais aussi des éléments pertinents pour les systèmes à haut risque, qui pourraient d’ailleurs être adaptés pour d’autres systèmes indépendamment des obligations prévues par ce texte.

Les algorithmes mettent en œuvre des politiques publiques. Si les politiques publiques sont de plus en plus coercitives et sécuritaires, les algorithmes seront proportionnellement plus coercitifs et plus sécuritaires. Cela doit nous conduire à nous interroger sur le type de services publics que nous souhaitons. Je rappelle aussi que les systèmes les plus critiques sont souvent les moins publiés, et le manque de transparence de ces systèmes constitue selon moi une question primordiale.

La réticence de l’administration à partager des informations au public est à mes yeux d’ordre culturel, et appelle un changement dans les mentalités. De nombreux algorithmes pourraient être rendus transparents sans poser de problèmes majeurs.

M. Hervé Saulignac (SOC). Avez-vous observé des cas où l’État a privilégié la moindre dépense au détriment de l’indépendance ?

Mme Soizic Pénicaud. Nous observons avant tout des manquements. Rares sont les administrations qui publient des informations financières sur les systèmes qu’elles utilisent. Sauf erreur, je crois que nous sommes parvenus à trouver des informations budgétaires sur 14 des 120 algorithmes de notre inventaire. Nous les avons trouvées le plus souvent dans des documents tels que les rapports de la Cour des comptes ou les dossiers de candidature adressés au fonds pour la transformation de l’action publique (FTAP).

Il m’est par conséquent difficile de vous répondre précisément sur une politique du moindre coût qui serait mise en œuvre. En revanche, nous observons que les administrations privilégient la performance avant toute autre considération. Je pense en particulier aux serveurs de stockage : les administrations optent pour des serveurs tels que Microsoft Azure, parce que leur usage est plus simple, sans nécessairement envisager les dépendances induites par ce choix.

Il est à noter que la Cour des comptes a relevé que les prédictions budgétaires des administrations, souvent, sont excessivement optimistes quant aux économies permises par la mise en œuvre de systèmes automatisés. De même, France Travail n’a pas été en mesure de fournir à la Cour des comptes des données relatives aux budgets dédiés à l’IA en 2023 et 2024.

Mme Isabelle Rauch, vice-présidente. Vous avez évoqué à plusieurs reprises la question de l’usage des algorithmes et des systèmes automatisés. Où en est l’Odap dans sa réflexion sur cette question des usages ? L’Odap intègre-t-il dans ses audits une réflexion sur l’accompagnement au changement, dont l’audition des représentants de la Cour des comptes nous a permis de comprendre qu’il constituait un frein au passage à l’utilisation d’outils souverains ? Formulez-vous des préconisations à l’attention des organismes qui vous commandent des audits ? D’ailleurs, pourriez-vous nous expliquer comment vous procédez à ces audits ? Comment s’adresse-t-on à vous ? Est-ce que vous vous autosaisissez ou bien procédez-vous à des audits sur la base d’une saisine externe ?

Mme Soizic Pénicaud. Nous ne réalisons pas d’audits poussés sur des algorithmes spécifiques. Notre travail consiste plutôt à centraliser des informations dans un inventaire. Si l’information n’existe pas, alors nous indiquons cette absence de publicité. Nous n’avons donc pas de méthodologie d’audit à proprement parler. L’Odap est un projet que nous menons de notre propre initiative, avec nos propres contraintes, et l’on peut dire que la majorité de nos actions, c’est-à-dire essentiellement l’inventaire, relèvent en quelque sorte de l’autosaisine. Nous sommes parfois contactés pour des échanges et des conseils, mais cette activité reste informelle, et nous manquons de temps et de ressources pour développer des collaborations formalisées avec des institutions.

S’agissant des usages, il convient d’être attentif à la distinction entre les systèmes de prise de décision et les outils d’assistance. À cet égard, l’IA générative a changé les termes du débat. Auparavant, les discussions portaient sur des systèmes de prise de décision critiques, comme les systèmes prédictifs ou la reconnaissance faciale, c’est-à-dire des systèmes susceptibles de mener à des prises de décision discriminantes. Avec l’IA générative, on intègre dans l’administration des outils d’assistance considérés comme bénins, dépourvus de biais et bien encadrés par un contrôle humain. Il s’agit par exemple de systèmes de retranscription d’entretiens, tels que le système Parole utilisé par la police pour retranscrire des auditions d’enfants victimes, qui suppose que la retranscription soit relue par un agent public.

Ces systèmes ne font pas naître d’inquiétudes parce qu’ils sont censés améliorer le quotidien des agents, automatiser des tâches répétitives et que, quoi qu’il arrive, un humain vérifiera que le résultat est correct. Or des recherches récentes sur les systèmes basés sur des modèles de langage mettent en évidence que l’usage de ces outils n’est pas si neutre. Par exemple, une étude sur la transcription dans le secteur social au Royaume-Uni démontre que des systèmes de résumé d’entretiens étaient biaisés contre les femmes, en minimisant leurs problèmes de santé.

Ces outils s’intègrent peu à peu dans le quotidien du travail administratif, sans être perçus comme des sources de problèmes, du fait de leur statut d’outils d’assistance, qui les distingue des outils de prise de décision. C’est pourquoi j’insiste sur l’importance d’appréhender les usages dans le cadre de la politique publique au sens le plus large. Il ne s’agit pas d’améliorer les algorithmes, il s’agit en réalité de repenser les politiques publiques que les algorithmes mettent en œuvre.

Enfin, concernant l’accompagnement aux changements des administrations, je dois dire qu’aucune administration n’a contacté directement l’Odap à ce jour. Mais l’Odap n’a pas non plus vocation à accompagner les administrations, compte tenu du statut de bénévole de ses membres, et de ses moyens limités. Des mesures spécifiques d’accompagnement au changement sont certainement nécessaires pour les administrations. Mais il importe avant tout de prendre conscience que les systèmes sont politiques, et ainsi d’envisager sous un autre angle la question de la légitimité à s’exprimer sur ces systèmes. C’est un point déterminant en termes d’accompagnement au changement, parce que le terme algorithme fait peur, et incite à penser que seules des personnes dotées de compétences techniques peuvent s’emparer de ces sujets, alors que la question de la transparence ne réclame pas de compétences techniques particulières. En d’autres termes, tous les agents publics sont en mesure de s’emparer de ces systèmes, et le dialogue social doit être intégré dans la discussion. Il en va de même dans la société civile : chacun est autorisé à s’exprimer sur ces questions. Encore une fois, je pense que le changement suppose un accompagnement culturel.

Il me parait opportun de penser ensemble différents aspects du problème posé par les systèmes, autrement dit d’articuler la question des infrastructures, des vulnérabilités et des dépendances, celle des effets, c’est-à-dire la question des droits fondamentaux, mais aussi les enjeux d’exploitation de données, d’êtres humains et de matières premières potentiellement liés aux systèmes, notamment les systèmes d’IA générative. Les conversations sont trop souvent menées séparément, et le défi consiste à les rassembler, comme s’y emploie d’ailleurs le RIA.

Mme Cyrielle Chatelain, rapporteure. Vous avez publié dans Mediapart un article coécrit avec le journaliste Clément Pouré sur les infractions au droit d’auteur de la part de Mistral AI. Pourriez-vous relater cette enquête, qui se rapproche de l’objet de notre commission puisqu’il y est question de la conformité au droit d’une entreprise française ?

Mme Soizic Pénicaud. Il s’agit d’un travail que j’ai mené en dehors de l’Odap, mais qui en effet est très lié à ce dont nous parlons aujourd’hui. Nous avons effectué avec le chercheur Paul Bouchaud un audit technique de certains modèles utilisés par Mistral AI dans le but de vérifier s’ils étaient en mesure de restituer des contenus d’ouvrages protégés par le droit d’auteur. Nous nous sommes inspirés pour cela de méthodes déjà appliquées à des modèles américains, et nous avons pu mettre en évidence trois éléments.

Premièrement, Mistral AI s’est appuyé sur des contenus protégés par le droit d’auteur pour entraîner ses modèles. Deuxièmement, il n’existe pas de garde-fou pour empêcher la restitution de ces contenus : si vous demandez à l’agent conversationnel de Mistral AI de restituer ces contenus, il n’avertit pas qu’ils sont protégés par le droit d’auteur, ce que font la plupart des entreprises américaines. Troisièmement, Mistral AI ne respecte pas les interdictions faites à ses robots de consulter, indexer et réutiliser les contenus de certains sites de presse tels que Radio France et Mediapart, ce qui contrevient au code de bonnes pratiques imposé au niveau européen sur les modèles d’IA générative.

Le problème des garde-fous est particulier, puisque certaines entreprises en placent, et que d’autres, à l’image de Mistral AI, s’y refusent. Celui de l’utilisation des données est différent, dans la mesure où il est extrêmement difficile à une entreprise de s’en passer si elle veut rester compétitive. Cela doit nous interroger à propos du modèle économique de l’industrie de l’IA générative : s’il n’y a pas d’alternative à l’utilisation des données, qu’est-ce que cela implique dans la politique industrielle que nous souhaitons soutenir ?

De même, les résultats de cette enquête sur Mistral AI questionnent la notion de souveraineté. Je précise d’ailleurs nous n’employons pas, à l’Odap, ce terme de souveraineté, que nous jugeons équivoque. Que signifie la souveraineté ? Est-ce un critère uniquement géographique ou linguistique ? Quelles exigences avons-nous vis-à-vis des entreprises d’IA générative que l’on souhaite favoriser sur notre sol ? Je n’ai pas de réponse à cette question, que j’estime aussi importante qu’épineuse.

M. Philippe Latombe (Dem). Quel est, selon vous, le rôle de l’open source dans les algorithmes ? Je sais que le terme d’open source n’est pas tout à fait correct, puisqu’il s’agit avant tout d’open code, de poids et de mesures ouverts, et que les bases d’entraînement restent souvent inaccessibles. Pensez-vous, toutefois, que l’open source permette de régler les problèmes de dépendance et de vulnérabilité ? L’écosystème du logiciel libre vous semble-t-il suffisamment soutenu pour être en mesure de fournir la sphère publique ?

Mme Soizic Pénicaud. Le terme d’algorithmes publics recouvre en réalité, je l’ai dit, des systèmes très différents. C’est pourquoi on peut apporter plusieurs réponses à cette question. Concernant l’IA générative, il existe des modèles ouverts, surtout des modèles dits open weight, en français des modèles à poids ouverts. Est-ce que recourir à ces modèles apporte des garanties en matière de dépendance ? C’est une piste à explorer, puisqu’il est possible d’utiliser ces modèles sans devoir acquérir une licence auprès d’une entreprise. Toutefois, cela ne règle pas toutes les questions qui se posent en termes de politique industrielle.

Je ne m’aventurerai pas sur le terrain de l’industrie de l’open source, qui est un trop vaste sujet, et je me limiterai à la question de la publication des codes des algorithmes. J’estime qu’il est pertinent d’explorer la possibilité de contraindre les éditeurs à fournir les codes sources de leurs systèmes. La transparence des codes sources, des données et des modèles, permettrait de mener des audits techniques et des évaluations externes, comme le font des journalistes et des associations, à l’image de la Quadrature du net. Mieux connaître les systèmes, c’est aussi mieux se protéger contre les vulnérabilités et les dépendances. Je ne sais pas si nous disposons des ressources nécessaires pour mener ce travail, mais la publication des codes sources des systèmes développés en interne pourrait constituer un premier pas, d’autant que cette publication ne dépend pas de l’industrie de l’open source.

Mme Isabelle Rauch, vice-présidente. Cette audition touche à sa fin, je vous remercie, madame Pénicaud, pour vos éclairages.

La séance s’achève à douze heures cinquante-cinq.

———

Membres présents ou excusés

Présents. – Mme Cyrielle Chatelain, M. Philippe Latombe, Mme Isabelle Rauch, M. Hervé Saulignac