CRCANR5L17S2026PO878304N015

— 1 —

La séance est ouverte à seize heures trente-cinq.

Mme Cyrielle Chatelain, présidente. Nous poursuivons les auditions de la commission d’enquête sur les dépendances structurelles et les vulnérabilités systémiques dans le secteur du numérique et les risques pour l’indépendance de la France. Le président de cette commission, Philippe Latombe, vous prie de l’excuser pour son absence. J’assumerai le rôle de présidente de séance en plus de celui de rapporteure.

Nous recevons ce jour deux chercheuses du CIS, Mmes Mélanie Dulong de Rosnay et Ramya Chandrasekhar. Mme Ramya Chandrasekhar s’exprimera en anglais. Le CIS du CNRS est un laboratoire qui tente d’éclairer les débats et les controverses autour de l’usage du numérique et de l’intelligence artificielle dans une approche pluridisciplinaire. Vos travaux portent sur les données, leur statut juridique et les moyens de les protéger. Ce sujet a bien sûr sa place dans nos réflexions sur les vulnérabilités systémiques de la France, la manière d’intégrer la gouvernance des données dans une logique de biens communs notamment numériques et la mesure dans laquelle une meilleure maîtrise des données contribue à la souveraineté ou à l’indépendance.

Avant de vous céder la parole pour un propos liminaire, je rappelle que cette audition est ouverte à la presse et fait l’objet d’une retransmission vidéo en direct. L’article 6 de l’ordonnance du 17 novembre 1958 relative au fonctionnement des assemblées parlementaires impose aux personnes auditionnées par une commission de prêter le serment de dire la vérité, toute la vérité, rien que la vérité. Je vous invite donc à lever la main droite et à dire : « Je le jure ».

(Mme Mélanie Dulong de Rosnay et Mme Ramya Chandrasekhar prêtent serment.)

Mme Mélanie Dulong de Rosnay, co-fondatrice du Centre internet et société (CIS) du CNRS. Nous vous remercions vivement pour votre invitation. Voici quelques semaines, la MIT Technology Review a révélé que les joueurs de Pokémon Go entraînaient à leur insu des robots de livraison de repas. Les données générées par ces joueurs ont servi à constituer une base de trente milliards de photos à partir desquelles ont été établies des cartes plus précises que celles des GPS. Les conditions d’utilisation du jeu définies par Niantic autorisaient ce type de réutilisation par sa filiale Niantic Spatial, ancienne start-up basée aux Etats-Unis. Les joueurs ont ainsi fourni un travail gratuit de cartographie sans partage de la valeur. En réalité, presque personne ne lit les conditions d’utilisation, déterminées unilatéralement par les plateformes. Il existe déjà des alternatives : les licences de logiciels libres ou Creative Commons, qui autorisent le partage gratuit sous certaines conditions comme le copyleft, imposant de partager les œuvres dérivées selon les mêmes conditions. Ces licences libres et ouvertes ont accompagné le développement du numérique en rendant possibles différents usages, tels que la culture du remix, la fouille de données ou encore l’IA. Elles se fondaient sur la reproductibilité à coût marginal – coût que la littérature estimait quasiment nul sans se soucier de celui de l’infrastructure de préservation de métadonnées ou du stockage ni des externalités. Dans un contexte d’ouverture du droit d’auteur et de techno-optimisme, l’accent a été mis sur l’accès ouvert, la liberté de reproduction et de modification sans se soucier de la soutenabilité économique ni des données personnelles. Ce modèle d’ouverture et de liberté est malheureusement devenu source de nouvelles appropriations. Ainsi, les millions d’internautes ayant partagé leurs photos sur la plateforme Flicker sous licence Creative Commons ont permis sans le vouloir à IBM d’entraîner une IA de reconnaissance faciale intégrée dans des applications de surveillance. Ce type d’utilisation n’était pourtant pas forcément souhaité par ces photographes amateurs.

Nous pourrons expliquer tout à l’heure pourquoi les licences ouvertes et libres ne suffisent pas à éviter l’extraction de données ni la captation de valeur – phénomène conceptualisé par la littérature en tant que nouveau colonialisme de données. Au CIS du CNRS, en partenariat avec l’Open Knowledge Foundation, nous développons de nouveaux outils juridiques et techniques pour se réapproprier la gouvernance de nos données, formuler nos propres conditions, partager des revenus avec des créateurs, des communautés ou encore des plateformes, et agir dans l’intérêt général. Même si la volonté de partager des données existe, beaucoup ne sont plus disposés à partager sans condition, de manière possiblement contraire à leur éthique. Nous construisons différentes briques techniques et juridiques de gouvernance des données pour autoriser certains usages à certaines catégories d’utilisateurs et reprendre le contrôle sur les termes auxquels nous consentons en fonction de modèles économiques de valeur politique. Il s’agit d’apprendre aux utilisateurs à imposer leurs propres conditions et à les signaler aux humains, aux ordinateurs et aux IA grâce à des métadonnées, à des standards du web comme My Terms de l’IEEE (Institute of Electrical and Electronics Engineers) ou l’Open Data Rights Language du W3C (World Wide Web Consortium). Il importe de reprendre la main sur nos données pour aboutir à un partage de la valeur et reprendre du pouvoir sur les plateformes qui captent et réutilisent nos données avec ou sans notre consentement éclairé.

Mme Ramya Chandrasekhar, chercheuse au CIS. Je serai brève. Pour rebondir sur les propos de Mme Dulong à propos du consentement au partage des données, le contrôle des individus et des communautés sur ces données, comme sur l’information et le savoir en général, m’apparaît crucial. Le consentement est essentiel pour s’assurer que les flux de données respectent les autorisations accordées par les individus et les communautés. Il importe en outre de donner à ceux-ci le pouvoir d’exiger réciprocité et durabilité de la part des acteurs économiques qui extraient de la valeur des données. Ce point est crucial dans un objectif de souveraineté des données, laquelle fait nécessairement partie de la souveraineté numérique. Actuellement, un petit nombre d’acteurs – regroupons-les sous l’étiquette de big tech – établissent les standards en matière de production et de circulation des données. Une controverse en cours depuis de nombreuses années porte sur l’extraction automatisée de données du web afin d’entraîner des modèles d’IA générative. D’un côté, les big tech procèdent à des extractions automatiques de contenus sans toujours respecter les droits d’auteurs ni la protection des données personnelles. D’un autre, des intermédiaires en ligne optent pour des stratégies de défense passant par la facturation de l’accès à du contenu. Le résultat net est négatif en termes d’accès public à la culture et au savoir via internet.

L’autre point important concerne la manière dont les big tech créent des écosystèmes numériques dans lesquels nous nous retrouvons enfermés. Ils imposent des conditions d’utilisation et des contrats couvrant un périmètre étendu, les autorisant à largement utiliser nos données tout en limitant nos propres droits sur ces données. Au-delà des contrats qu’elles imposent, ces entreprises réglementent par le biais de leur infrastructure. Apple s’est ainsi efforcée d’empêcher les développeurs d’applications mobiles d’utiliser les données qu’elle avait collectées tout en les exploitant elle-même largement. Ceci a permis à Apple de créer un écosystème d’applications mobiles au détriment de la concurrence et au bénéfice de l’entreprise elle-même. Cette pratique a d’ailleurs été sanctionnée par l’Autorité de la concurrence en 2025.

Dans ce contexte de régulation par les infrastructures et par les conditions d’utilisation, limitant le contrôle des individus et des communautés sur leurs données, nous avons besoin d’une combinaison d’interventions et d’outils juridiques, techniques et sociaux pour rendre aux individus et aux communautés le contrôle de leurs données. Tel est le fondement du partenariat entre le CIS et l’Open Knowledge Foundation, baptisé Sustainable Data Commons (Sudaco). Dans le cadre de ce projet, j’étudie les fiducies de données en tant qu’intermédiaires sur le modèle des sociétés collectant des droits d’auteurs. Je fais le pari que ces fiducies pourraient gérer des données personnelles, garantir l’interopérabilité, et veiller au respect des licences quitte à initier pour cela des litiges stratégiques.

Dans l’Union européenne, plusieurs initiatives ont vu le jour depuis 2020 afin de permettre la circulation et la réutilisation de données de qualité y compris à un niveau sectoriel dans le cadre du Data Governance Act par exemple. La stratégie relative aux données de 2020 invitait à la création d’espaces de données dans l’Union européenne. La stratégie la plus récemment élaborée en la matière pousse à la création de laboratoires d’IA donnant accès aux développeurs européens à des données d’entraînement d’IA. Ces initiatives permettent à la France et à l’Union européenne de concevoir et mettre sur pied des structures alternatives au partage et à la réutilisation de données. Des licences Creative Commons en ont constitué l’architecture en établissant des standards de partage des données. Nous devons à présent mettre à jour ces licences de manière à refléter la réalité économique actuelle des big tech. Il nous faut aussi les combiner avec des structures telles que des fiducies ou des coopératives de données en vue d’une gouvernance participative de nos données, au lieu de suivre le modèle dominant d’infrastructures addictives qui extraient des données et verrouillent leur accès dans des écosystèmes propriétaires qui réduisent les droits des utilisateurs finaux. Il est de notre devoir d’imaginer des alternatives prenant pour point de départ les individus et les communautés en leur donnant le pouvoir de contrôler leurs données.

Mme Cyrielle Chatelain, présidente. Madame Dulong, vous avez parlé de nouveau colonialisme de la donnée. Pourriez-vous expliciter ce terme et préciser votre diagnostic avant d’envisager des solutions ?

Mme Mélanie Dulong de Rosnay. Il s’agit d’une nouvelle forme de vulnérabilité systématique, comme l’a relevé la commission, qui s’exerce sur tous les types de données numériques – personnelles, privées, publiques, techniques ou encore qui relèvent des communs numériques. La vulnérabilité provient des conditions d’utilisation des plateformes, qui imposent des termes injustes et impossibles à négocier. Ces termes transfèrent tous les droits à la plateforme. Les modèles économiques du numérique se fondent sur la captation de masses de données. La vulnérabilité vient aussi des limites et des effets secondaires des licences libres et des données ouvertes ayant placé les ressources dans des conditions proches du domaine public, ce qui est excellent du point de vue de leur diffusion, de la culture, de la démocratie et de l’innovation, mais qui autorise l’extraction et l’appropriation de la valeur de la donnée sans réciprocité ni soutien à la création ou à l’infrastructure, alors que les communs numériques sont produits grâce à des financements publics ou au travail bénévole de communautés. Nous sommes face au résultat d’une conception libérale de l’open data, revenant à offrir une manne réutilisable par tous y compris les grands acteurs du numérique, dès lors libres de les privatiser et d’en extraire la valeur – d’où la comparaison avec le colonialisme. La captation des investissements et du travail bénévole ne suppose ici aucune contribution aux communs. Ce colonialisme de données a été conceptualisé par de nombreux chercheurs tels que Renata Avila, Nick Couldry et Ulises Mejias.

Mme Ramya Chandrasekhar. La vulnérabilité fondamentale vient de la réduction de la donnée à une matière première que certains acteurs veulent utiliser gratuitement pour créer leur propre écosystème propriétaire duquel nous nous retrouvons prisonniers. L’entraînement de l’IA générative repose sur l’extraction automatisée de données du web – y compris protégées par des droits d’auteur sans que ceux-ci soient rémunérés en contrepartie. Les données personnelles partagées dans les réseaux sociaux sont elles aussi utilisées pour entraîner les modèles d’IA des plateformes. La législation en vigueur dans l’Union européenne (dont les lois sur le copyright ou sur la protection des données) se voit ainsi contournée pour laisser place à l’idée selon laquelle nos données sont tout simplement là pour être exploitées. Dès lors que nous sommes actifs en ligne et que nous communiquons nos données, il ne nous est plus possible d’exercer sur celles-ci le moindre contrôle. Il s’agit là d’une vulnérabilité fondamentale sur laquelle nous nous efforçons d’attirer l’attention en parlant de souveraineté des données. Le mouvement des données ouvertes issu de la doctrine du gouvernement ouvert s’efforçait de contester la notion d’innovation propriétaire mise en avant par les géants de la tech en prônant l’accès gratuit à des données que tout un chacun pouvait modifier ou utiliser en tant que source d’innovation. Ce mouvement a pourtant été récupéré par les big tech. Meta se fait aujourd’hui le champion de logiciels d’IA open source dans l’idée de les intégrer à son système propriétaire proposant des services labelisés « Meta ». Les big tech utilisent les logiciels et les modèles ouverts sans débourser un centime et surtout sans qu’en profite la communauté qui les a créées.

Mme Cyrielle Chatelain, présidente. Le cofondateur de Mistral AI, Arthur Mensch, a récemment proposé d’imposer une contribution financière aux fournisseurs de services d’IA, allant d’un à cinq pour cent de leur chiffre d’affaires, en compensation de leur utilisation de la donnée. Ce mécanisme vous parait-il à même de protéger l’activité et les revenus des ayants droit ou des producteurs de la donnée ? Si tel ne vous semble pas le cas, pour quelle raison ? Comment parvenir à un système économique qui donne lieu au partage de la valeur ?

Mme Mélanie Dulong de Rosnay. Mme Chandrasekhar et moi campons sur des positions distinctes, mais complémentaires. Lors de l’apparition de toute innovation technologique, telle qu’une nouvelle technique de communication ou de reproduction des œuvres, de même qu’à chaque bataille entre technologie et droit d’auteur, une adaptation a lieu. La création d’un mécanisme de rémunération équitable est déjà intervenue par suite de la mise au point de la radio, de la télévision, des cassettes et des disques durs. La seule exception concerne le téléchargement pair-à-pair qui date d’une vingtaine d’années. La licence légale proposée par Philippe Aigrain entre autres n’a pas vu le jour. À la place ont été proposés des abonnements aux plateformes de streaming. Je ne sais si la société en sort réellement gagnante. Un mécanisme de répartition équitable est en principe géré par une société de gestion collective et permet de compléter les revenus des auteurs et artistes, quoique pas nécessairement les moins visibles d’entre eux. En tant que responsable juridique de Creative Commons France, j’avais d’ailleurs réfléchi avec la Sacem à un pilote assurant une répartition plus juste des droits d’auteur collectés, favorisant une plus grande diversité culturelle. Voilà pourquoi nous réfléchissons à des mécanismes décentralisés à travers ces infrastructures de fiducies de données gérées directement par les communautés.

Mme Ramya Chandrasekhar. La proposition de Mistral préconisée par plusieurs décideurs politiques et experts ne me paraît pas une mauvaise solution. Les modèles d’IA génératives s’entraînent avec des données essentiellement publiques. L’idée qu’ils rendent des informations au public en contrepartie d’une taxe bénéficiant à des services publics, à la préservation de la culture ou à des institutions dépositaires du savoir ne me paraît pas une mauvaise idée. Il importe néanmoins que la compensation financière ruisselle jusqu’au producteur de la donnée, qu’il s’agisse d’un artiste auteur d’un contenu créatif ou d’un individu ayant communiqué ses données personnelles. De nombreux litiges sont en cours un peu partout dans le monde contre des IA génératives pour violation du droit d’auteur. La majorité a été initiée par de grands médias en ligne tels que le New York Times, réclamant des revenus liés à des licences sans pour autant que ces revenus ruissellent jusqu’aux journalistes eux-mêmes. Une exception est toutefois constituée par la Gesellschaft für musikalische Aufführungs und mechanische Vervielfältigungsrechte (Gema) allemande, qui a attaqué Open AI pour obtenir un revenu de licences qui profiterait aux musiciens adhérents. Il importe qu’un tel revenu ruisselle jusqu’aux producteurs de la donnée. Renata Avila et moi-même avons écrit un article pour Tech Policy Press affirmant la nécessité de changements structurels tels que l’allocation de budgets nationaux plus conséquents à l’éducation et à la préservation du savoir et de la culture, pour faire en sorte que les communs numériques ne se substituent pas aux obligations des institutions publiques en la matière. Il importe d’assurer les conditions matérielles indispensables à l’accès au savoir et à la culture, grâce auxquelles émergeront les communs numériques.

Mme Cyrielle Chatelain, présidente. Vous avez évoqué la nécessité d’une structure gestionnaire des données telle qu’une fiducie ou une structure coopérative. Pourriez-vous nous en dire plus ? Le cadre juridique actuel permet-il la création de telles entités ? Quel rôle assumeraient-elles ? À quel modèle économique obéiraient-elles ? La gestion de toutes les données par des fiducies ne ferait-elle pas peser un risque de silotage d’internet ? Quelle en serait l’incidence sur la mise en commun des données ?

Mme Mélanie Dulong de Rosnay. Merci d’avoir repéré les enjeux et les difficultés de la mise en œuvre de nouveaux modèles de gouvernance. Nous devons construire un écosystème complet. Figurons-nous différentes briques, à commencer par des licences lisibles par les machines grâce à des métadonnées proposant des clauses obligatoires et des utilisations autorisées comme dans le modèle d’accès ouvert. La possibilité pour les communautés de réserver certains usages ne devrait pas créer de blocage, mais simplement une étape supplémentaire – autant que possible automatisée – donnant éventuellement lieu à la collecte et à la répartition d’une rémunération en fonction des types d’utilisation et d’utilisateurs. S’appuyer sur des standards éviterait à la fois des incompatibilités et la multiplication des cas particuliers. Il reviendrait également aux fiducies d’assumer un rôle de législateur et de juge en interprétant les conditions d’utilisation des données. Celles-ci pourraient par exemple être utilisées par des chercheurs, des associations ou des entreprises de l’économie sociale et solidaire, mais pas à des fins militaires. Il s’agirait d’inciter à la redirection écologique en autorisant la réutilisation des données par les coopératives, comme le fait déjà la licence Copyleft de CoopCycle. Tel serait le rôle de ces fiducies de données agissant en tant que sociétés de gestion collective augmentée ou en tant qu’organisations professionnelles, tout en incarnant des valeurs politiques. Le recours aux standards du web permettra d’automatiser les processus.

Mme Ramya Chandrasekhar. J’adhère aux propos de Mme Dulong. Dans le cadre du Data Governance Act, les coopératives de données ont été reconnues en tant qu’intermédiaires à même de faciliter l’exercice collectif de droits sur les données, que celles-ci soient ouvertes ou personnelles. Nous préconisons, à travers les fiducies de même que par le biais des coopératives, une collectivisation de l’exercice de droits sur les données. Pour l’instant, même quand les individus restent libres d’indiquer leurs préférences en termes d’utilisation de leurs données, il leur revient de s’assurer que ces préférences sont prises en compte. Le recours à des coopératives renforcerait la possibilité de contrôles par la délégation de ceux-ci à des intermédiaires. Les fiducies pourraient être des associations ou des coopératives de l’économie sociale et solidaire voire une entité administrative publique.

En Inde, le concept de fiducie a été discuté voici six ans dans un projet de loi inspiré du Data Governance Act reconnaissant la capacité d’une fiducie à jouer un rôle d’intermédiaire dans l’exercice collectif de droits sur les données. À New Delhi, une entité administrative pilote a été créée en tant que fiducie de données de mobilité générées par les usagers des transports publics, reconnues d’intérêt public et dont des acteurs privés comme Uber ne sauraient être les seuls à profiter. Ces données de mobilité ne sont pas la propriété de la fiducie qui se contente de les détenir au nom des citoyens, imposant des conditions à leur utilisation. De semblables expérimentations ont vu le jour à Barcelone et Amsterdam, où la municipalité a contractualisé des services de technologie de l’information et de la communication auprès d’un tiers privé en exigeant que les données générées par l’utilisation de ces services soient ouvertes et rendues publiques. Là encore, ces municipalités agissent en tant que fiducies des données de leurs habitants afin de s’assurer que la valeur qui en est extraite leur profite en dernier ressort.

Mme Cyrielle Chatelain. Si j’ai bien compris, l’objectif est que les données restent publiques et accessibles via internet. Vous avez cité l’exemple de données créées lors des déplacements dans les transports en commun qui, une fois associées à un certain type de licence, ne pourraient plus être utilisées que dans l’intérêt public voire dans un but lucratif quoique dans certains secteurs seulement. Une structure aurait pour rôle de garantir le respect des préférences exprimées par les producteurs des données, faute de quoi, elle intenterait des procédures judiciaires. Une telle initiative pourrait-elle aboutir dans le cadre du droit français ?

Mme Mélanie Dulong de Rosnay. Un immense merci pour votre synthèse, qui ne vaut cependant pas dans le cas de données privées ou confidentielles, qui ne sauraient être accessibles à certains utilisateurs. Il n’est pas seulement question de droit d’auteur déjà divulgué, mais aussi de données personnelles ou techniques générées sur des plateformes. Une diversité de cas d’usage se présente, allant du plus ouvert au plus fermé.

Mme Ramya Chandrasekhar. Merci d’avoir résumé notre projet mieux que nous-mêmes. Il importe de distinguer entre les types de données. Prenons l’exemple de celles qui sont générées par les voyageurs prenant le train en France et que collecte la SNCF. La législation oblige déjà à les rendre ouvertes et accessibles à tous en autorisant leur réutilisation. La SNCF pourrait agir en tant que fiducie. La directive européenne Open Data oblige les acteurs de services publics à rendre leurs données accessibles. La directive omnibus propose toutefois que les administrations publiques publient leurs données sous une licence ouverte limitant certains types d’utilisation, par exemple l’utilisation par une big tech, ou exigeant de ces entreprises une contrepartie financière. L’administration publique agit dans ce cas en tant que fiducie dans l’intérêt des citoyens.

Une fiducie pourrait servir d’intermédiaire entre les individus producteurs de données personnelles et les plateformes désireuses d’utiliser celles-ci en exerçant leurs droits en leur nom pour les protéger contre ces plateformes, en allant au besoin jusqu’à initier des litiges stratégiques.

Mme Cyrielle Chatelain. Il a beaucoup été question du Health Data Hub, la plateforme d’hébergement des données de santé. Y voyez-vous une préfiguration de ce que pourrait être une fiducie de données ? Les données privées sont produites sur les réseaux sociaux comme sur les applications de géolocalisation dont les utilisateurs acceptent les conditions d’utilisation, du fait qu’ils n’arrivent pas à en prendre connaissance, sachant qu’elles ne sont pas toujours conformes au RGPD. Comment les fiducies interviendraient-elles pour protéger de telles données ? Parviendraient-elles à infléchir le rapport de force entre les individus et les plateformes ?

Mme Mélanie Dulong de Rosnay. Le Health Data Hub est une infrastructure technique, juridique et économique hébergée par Microsoft selon une architecture centralisée. Nous proposons en guise d’alternative un réseau décentralisé pair-à-pair. L’IGN (Institut national de l’information géographique et forestière) diffusant des données publiques et Open Street Maps – commun numérique gouverné par une communauté – qui bénéficie de mises à jour spécifiques et dynamiques s’opposent à Google Maps et encore plus à Niantic Spatial. L’important n’est pas seulement le stockage et la mise à disposition des données, mais leur gouvernance par une communauté à même d’édicter des règles en fonction de valeurs partagées et de déléguer ses pouvoirs à la fiducie.

Mme Ramya Chandrasekhar. Mme Dulong a parlé des standards IEEE.

Mme Mélanie Dulong de Rosnay. L’IEEE n’est autre qu’une organisation de standardisation technique internationale. Elle vient de diffuser un standard s’appliquant aux données personnelles, dont la conception a pris vingt ans. Baptisé My Terms (ou 7012-2025), il est lisible par les machines. L’association de ce standard aux langages d’expression des droits comme Open Data Rights Language permet aux utilisateurs et aux titulaires de droits de spécifier ce qu’ils autorisent ou non en termes d’utilisation de leurs données.

En dernier ressort, il importe d’apprendre aux citoyens à exercer leurs droits le plus simplement possible. Il serait, de fait, trop compliqué de distinguer entre les régimes juridiques s’appliquant aux divers types de données.

Mme Ramya Chandrasekhar. Notre projet SUDACO ne se limite pas à la création d’intermédiaires tels que des fiducies à même de faire respecter les licences quitte à initier des litiges stratégiques. Notre projet repose aussi sur des outils tels que des standards lisibles par les machines applicables aux données privées dont ils limitent l’usage. Dans l’Union européenne, les détenteurs de droits d’auteur peuvent décider de ne pas partager les contenus qu’ils ont créés dans le cadre d’une collecte automatique de données à visée commerciale. Des organisations telles que Spawning.ai dressent des listes de refus d’utilisation de données protégées par droits d’auteur afin qu’elles disparaissent des bases de données d’apprentissage des IA. Le nouveau standard de l’IEEE permet aux développeurs d’applications d’en faire autant. Ces diverses briques se complètent. Une fiducie ou une coopérative à elle seule ne résoudrait pas tout.

Mme Cyrielle Chatelain. Vous avez indiqué comment une entité publique était en mesure de défendre les droits des citoyens sur leurs données. Quel devrait être le rôle de l’administration dans un écosystème durable de données ouvertes ? Quelles collaborations vous semblent-elles envisageables entre l’administration et les acteurs de l’open source ? Les fiducies seraient-elles forcément publiques ? Quel rôle revient selon vous à l’administration dans un écosystème de données ouvertes dans la limite de ce qu’autorisent les choix de leurs producteurs ?

Mme Mélanie Dulong de Rosnay. Les différents modèles de coopération entre l’administration, les entreprises privées de l’open source et les communautés qui développent et maintiennent des biens communs numériques ne s’opposent pas vraiment. Voici la plaquette du Digital Commons Policy Council. Il existe des collaborations avec des développeurs de logiciels libres et des big tech. Voici un ouvrage coédité notamment par Danièle Bourcier intitulé Dynamiques du commun, entre État, marché et société. Les politiques publiques tendent à privilégier des logiciels libres et open source – quoique pas systématiquement – ou encore la coproduction grâce à des financements ou des accompagnements professionnels. La Dinum (direction interministérielle du numérique) a ainsi mis au point Open Food Maps et développé des logiciels libres regroupés sous l’intitulé « LaSuite ». Un outil public en cours de développement permettra bientôt d’insérer des clauses dans les marchés publics.

Mme Ramya Chandrasekhar. La passation de marchés publics a un rôle crucial à jouer dans l’émergence d’une demande de biens communs et de logiciels libres. En France, la loi n° 2016-1321 du 7 octobre 2016 pour une République numérique comporte plusieurs clauses selon lesquelles, lorsque des services publics de transport et d’énergie sont assurés par des acteurs privés, l’organe public contractant peut exiger une communication des données collectées par ces acteurs privés afin de les rendre publiques. La formulation de cette clause laisse toutefois à désirer. L’administration publique pourrait jouer un rôle plus actif pour s’assurer de l’ouverture des données collectées par le secteur privé. La municipalité de Barcelone a passé un contrat avec Vodafone pour le wifi public comportant une clause relative à la souveraineté des données, en vertu de laquelle toutes les données générées par Vodafone doivent être communiquées à la municipalité en vue de leur publication en tant que données publiques. Le chapitre 5 du Data Act autorise les administrations publiques à obtenir des données d’acteurs économiques privés en cas d’urgence. Le projet de directive omnibus cherche hélas à en réduire le périmètre d’application. Il s’agit en tout cas d’une autre voie par laquelle les entités publiques peuvent réclamer des données provenant de plateformes privées de mobilité comme Google Maps dans la mesure où ces données sont d’intérêt public.

M. Nicolas Bonnet (EcoS). Je vais essayer de reformuler ce que je pense avoir compris : vous proposez aux producteurs de données des espaces où faire état de leurs choix quant au stockage et à l’utilisation de ces données, quitte à monnayer l’accès à une part d’entre elles. Les producteurs de données pourraient aussi décider lesquelles mettre à disposition temporairement ou définitivement et même choisir, pour les héberger, un serveur décentralisé ou d’État, tel que France Connect.

Mme Mélanie Dulong de Rosnay. L’idée est de mettre à disposition des communautés – y compris l’État, les collectivités locales, les associations, les entreprises, voire des secteurs professionnels – le moyen de développer leur propre infrastructure et les règles qui les encadrent. Elles peuvent y parvenir de la manière que vous avez décrite ou plus simplement, sans que chaque utilisateur ait à préciser les conditions qu’il impose à chaque type d’usage de ses données. Ce dernier cas de figure supposerait de déléguer l’exercice des droits à une fiducie sur le modèle d’une adhésion à une société d’auteurs ou à une organisation professionnelle.

M. Nicolas Bonnet (EcoS). Quand une entreprise tire un bénéfice de l’utilisation d’une donnée personnelle, il est légitime qu’elle rémunère celui qu’il l’a produite, mais je ne saisis pas très bien en quoi consisterait un retour des données produites de sorte qu’elles deviendraient publiques.

Les IA génératives absorbent beaucoup d’informations sans que leurs auteurs soient rémunérés. Serait-il possible d’imposer la constitution d’un répertoire des noms de domaine alimentant les modèles d’entraînement ne serait-ce que pour permettre à ceux y figurant de réclamer une rémunération en contrepartie ? Des négociations directes entre producteurs de contenus et sociétés d’IA pourraient dans ce cas intervenir. Un tel répertoire présenterait aussi l’intérêt d’indiquer quelles données ont alimenté une IA générative et donc quel degré de confiance lui accorder.

Mme Ramya Chandrasekhar. Vous avez tout à fait raison en ce qui concerne l’usage de données à des fins d’entraînement d’IA générative. Peu de sociétés d’IA font actuellement preuve de transparence quant à la source de leurs données. Il est de notoriété publique qu’elles proviennent d’internet, mais il faut faire appel à de la rétro-ingénierie pour identifier les noms de domaines. L’AI Act en vigueur dans l’Union européenne oblige les modèles d’IA à publier un condensé suffisamment détaillé des données d’entraînement incluant en théorie les noms de domaines. Des efforts se poursuivent en vue de les codifier à travers le Code de bonnes pratiques de l’IA à usage général. Il reste à voir si ces grandes compagnies se plieront à l’exercice. Des acteurs d’intérêt public au sein de la société civile ont créé de tels répertoires, comme Have I been trained ? créé par un groupe d’artistes et qui collecte tout type de contenu créatif publié sur le net, vérifiant s’il fait partie du Common corpus servant à entraîner de nombreux modèles d’IA. Si oui, les auteurs peuvent alors refuser que leur contenu soit reproduit par des IA. Une plus grande transparence est nécessaire sur les sources d’entraînement des IA. Wikipédia pourrait par exemple exiger une contrepartie financière à son utilisation par des modèles d’entraînement.

Vous vous demandiez comment obliger certains acteurs privés à rendre leurs données publiques. C’est une excellente question. Pour l’instant, des décisions sont prises thématiquement. Par exemple, si vous produisez des données pour une administration, celle-ci peut vous contraindre à les lui restituer. Pour autant, il est difficile d’imaginer une législation contraignant à partager des données produites à titre individuel. Les licences Creative Commons et les logiciels libres s’efforcent de faire vivre une communauté où les données sont volontairement cédées dans l’intérêt public.

Mme Mélanie Dulong de Rosnay. Il n’est pas aisé de déterminer sous quelle licence distribuer un produit issu de l’agrégation de plusieurs bases de données, car cela supposerait d’examiner des contrats pas forcément compatibles. Nous collaborons avec des collègues du CNRS et de l’université de Nantes, Margo Bernelin et Patricia Serrano-Alvarado, qui ont développé l’application CLiC, calculant automatiquement, en cas d’utilisation de données sous plusieurs licences distinctes la licence sous laquelle les redistribuer.

À propos des IA génératives, nous en revenons à la proposition de Mistral de les obliger à constituer un répertoire, permettre un opt-out ou contribuer à la soutenabilité des biens communs numériques qui les entraînent. Il est apparu, dans le cadre du projet Communes NGI lancé par la fondation Software Heritage, que des rémunérations sont parfois négociées via les API (application programming interface). Ces rémunérations contribuent à la soutenabilité de ces biens communs numériques dans la mesure où elles peuvent couvrir les frais liés aux serveurs. Nous avons contribué à un preprint avec des collègues sous l’égide du Joint Research Centre de la Commission européenne afin d’explorer les moyens d’assurer la soutenabilité des biens communs numériques par une coopération avec les IA génératives. Je signale à ce propos l’existence de Pleias, une IA éthique qui s’entraîne uniquement sur des corpus relevant du domaine public.

M. Vincent Thiébaut (HOR). Je rebondirai sur les propos de mon collègue à propos du partage des données, faisant écho à un projet auquel j’ai contribué, de coffre-fort numérique virtuel. Comment envisagez-vous le rôle de l’État dans la gouvernance des données ? Quel parallèle établissez-vous avec la question de l’identité numérique ? Il me semble que l’autorité publique se doit de garantir la protection et la bonne utilisation des données. Je trouve insensé que nous ne soyons pas capables de savoir de quelles sources proviennent les résultats fournis par une IA, alors que tout journaliste sérieux cite ses sources dans ses articles.

Mme Ramya Chandrasekhar. En effet, nous ne disposons pas de beaucoup d’informations sur les sources d’entraînement des IA, alors que les journalistes indiquent toujours leurs sources. Cette question est liée à celle du rôle de l’État. Quels sont les types d’IA soutenus par l’État en France et dans l’Union européenne ? L’État peut soutenir de petits modèles entraînés à partir de données ouvertes ensuite intégrés – et valorisés – dans des services publics plutôt que de recourir à des solutions fournies par de grands acteurs de la tech. L’État a aussi pour rôle d’édicter et de faire respecter des règles. La tendance actuelle est malheureusement à la déréglementation. Il importe de ne pas donner carte blanche aux acteurs de la « big tech » de sorte qu’ils imposeraient leurs propres normes.

Mme Mélanie Dulong de Rosnay. Je ne vois rien à ajouter. Je ne suis pas spécialiste de l’identité numérique, mais il existe des biens communs numériques permettant de telles certifications.

Mme Cyrielle Chatelain. Les fiducies de données sont-elles forcément associées à un serveur ? Par ailleurs, avez-vous en tête des modifications assez simples de la législation en vigueur qui permettraient de s’acheminer vers un tel modèle ?

Mme Ramya Chandrasekhar. Une fiducie peut fournir l’infrastructure technique de stockage des données en les entourant d’une sorte de barrière de protection. Tim Berners-Lee l’a d’ailleurs proposé dans le projet Solid. Il est possible aussi d’imaginer un modèle de données distribuées où la fiducie se contente de faire respecter les droits de leurs propriétaires. À vrai dire, tout dépend du type de données. Une fiducie juridique semble mieux adaptée à la gestion de données personnelles.

Pour répondre à votre seconde question, la création de fiducies pourrait être envisagée à propos des espaces de données tels que le Health Data Hub français ou l’espace européen commun des données pour le patrimoine culturel. Certaines institutions existantes pourraient jouer le rôle de fiducies.

Mme Mélanie Dulong de Rosnay. Les solutions vont du stockage des données à l’option la plus décentralisée en fonction du type de données, des capacités et des modèles de gouvernance déterminés par chaque groupe d’acteurs.

La séance s’achève à dix-huit heures.

———

Membres présents ou excusés

Présents. – M. Édouard Bénard, M. Nicolas Bonnet, Mme Cyrielle Chatelain, M. Vincent Thiébaut

Excusé. – M. Philippe Latombe