642

 

 170

ASSEMBLÉE NATIONALE

 

SÉNAT

CONSTITUTION DU 4 OCTOBRE 1958

DIX-SEPTIÈME LÉGISLATURE

 

SESSION ORDINAIRE 2024 - 2025

Enregistré à la présidence de l’Assemblée nationale

 

Enregistré à la présidence du Sénat

le 29 novembre 2024

 

le 28 novembre 2024

 

 

 

RAPPORT

 

au nom de

 

L’OFFICE PARLEMENTAIRE D’ÉVALUATION

DES CHOIX SCIENTIFIQUES ET TECHNOLOGIQUES

 

sur

 

 

les nouveaux développements de l’intelligence artificielle

 

 

 

 

par

 

 

M. Alexandre Sabatou, député, M. Patrick Chaize et Mme Corinne Narassiguin, sénateur et sénatrice
 

 

 

 

 

Déposé sur le Bureau de l’Assemblée nationale

par M. Pierre HENRIET,

Premier vice-président de l’Office

 

 

Déposé sur le Bureau du Sénat

par M. Stéphane PIEDNOIR,

Président de l’Office

 

 

 

 

Composition de l’Office parlementaire d’évaluation des choix scientifiques
et technologiques

 

 

 

Président

M. Stéphane PIEDNOIR, sénateur

 

 

Premier vice-président

M. Pierre HENRIET, député

 

 

Vice-présidents

 

M. Jean-Luc FUGIT, député

M. Gérard LESEUL, député

M. Alexandre SABATOU, député

Mme Florence LASSARADE, sénatrice

Mme Anne-Catherine LOISIER, sénatrice

M. David ROS, sénateur

 

 

 

 

 

 

DÉputés

 

 

SÉnateurs

M. Alexandre ALLEGRET-PILOT

M. Maxime AMBLARD

M. Philippe BOLO

M. Éric BOTHOREL

M. Joël BRUNEAU

M. François-Xavier CECCOLI

M. Maxime LAISNEY

M. Aurélien LOPEZ-LIGUORI

Mme Mereana REID ARBELOT M. Arnaud SAINT-MARTIN

M. Jean-Philippe TANGUY

Mme Mélanie THOMIN

M. Stéphane VOJETTA

Mme Dominique VOYNET

M. Arnaud BAZIN

Mme Martine BERTHET

Mme Alexandra BORCHIO FONTIMP

M. Patrick CHAIZE

M. André GUIOL

M. Ludovic HAYE

M. Olivier HENNO

Mme Sonia de LA PROVÔTÉ

M. Pierre MÉDEVIELLE

Mme Corinne NARASSIGUIN

M. Pierre OUZOULIAS

M. Daniel SALMON

M. Bruno SIDO

M. Michaël WEBER


- 1 -


ChatGPT, et après ?
Bilan et perspectives de l’intelligence artificielle

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

« Le progrès n’est plus dans l’homme, il est dans la technique,
dans le perfectionnement des méthodes capables de permettre
chaque jour une utilisation plus efficace du matériel humain »

 

 Georges Bernanos, La France et les Robots,
Éditions de la France libre, 1946, page 11.

 

 


- 1 -


SOMMAIRE

 

Pages

Synthèse

Avant-propos

Première partie : Comprendre les technologies d’intelligence artificielle

I. Histoire de la notion d’intelligence artificielle

A. La préhistoire de l’intelligence artificielle
et ses représentations culturelles

1. De la mythologie antique aux machines à calculer

2. Un thème traditionnel de la science-fiction

B. Les avancées depuis un siècle : du baptême de 1956
à la confirmation de 2017

1. L’école d’été de Dartmouth de 1956, le moment fondateur de la définition de l’IA

2. Printemps et Hivers de l’IA

3. Les années 2010 : une décennie d’innovations et de progrès spectaculaires

4. « L’intelligence artificielle n’existe pas » : la question de la « frontière » de l’IA

C. La summa divisio de l’IA : intelligence artificielle symbolique et intelligence artificielle connexionniste

1. L’intelligence artificielle symbolique

a) Principes généraux des IA symboliques

b) Quelques illustrations de ces technologies

c) Des limites sémiotiques qui les éloignent de l’intelligence

2. L’intelligence artificielle connexionniste

a) Cadre et définition de ces « superstatistiques »

(1) À l’origine de tous ces systèmes : les classifieurs linéaires

(2) La pierre angulaire théorique : le théorème d’approximation universelle

b) Les réseaux de neurones artificiels : aux origines de l’apprentissage profond ou Deep Learning

(1) Les premières théories dans les années 1940

(2) Les premiers perceptrons

(a) Les perceptrons monocouches

(b) Les perceptrons multicouches (MLP) et les réseaux de neurones à propagation avant (FNN)

(3) La rétropropagation du gradient (Back-propagation)

(4) Les réseaux de neurones convolutifs (CNN)

(5) Les réseaux de neurones récurrents (RNN)

(6) Les réseaux de neurones à mémoire court et long terme (LSTM)

c) Les autres systèmes d’apprentissage

(1) Les machines à vecteurs de support (SVM)

(2) Les modèles markoviens ou « chaînes de Markov »

(3) La contribution des réseaux bayésiens à l’IA

(4) L’apport de la « régularisation statistique » de Vapnik

II. Les IA génératives : principale innovation technologique en intelligence artificielle depuis 2017

A. les principales avancées en matière de génération de contenu ces dernières années

1. « Attention is all you need » : la technologie Transformer inventée en 2017

a) La « tokenisation » : découper préalablement les mots

b) Le plongement lexical : vectoriser les tokens

c) Le mécanisme d’attention : intégrer le contexte

d) Un apprentissage auto-supervisé et des données synthétiques

2. Distinguer les « modèles de fondation » des systèmes d’intelligence artificielle

a) La notion de « modèle de fondation » et ses ambiguïtés

b) Le « fine-tuning » : passer du modèle de fondation aux applications

c) Pourquoi les IA deviennent-elles « woke » ?

3. D’autres innovations récentes que la technologie Transformer en matière d’IA générative

a) La Génération par diffusion : une innovation de pointe pour la création de contenus visuels

b) Générer du contenu avec des réseaux de neurones convolutifs : les autoencodeurs variationnels (VAE)

c) Les réseaux génératifs antagonistes (GAN)

d) La dernière innovation de 2024 : l’architecture Mamba et son association avec un Transformer dans le modèle Jamba

B. Les grandes questions technologiques
et les possibles évolutions à venir

1. Les problématiques technologiques de l’intelligence artificielle

a) L’IA « boîte noire » : le double défi de l’explicabilité

b) Des biais à plusieurs niveaux : données réelles ou synthétiques ainsi que choix de programmation

c) Les erreurs graves ou « hallucinations »

2. Les tendances de la recherche et les principales perspectives technologiques

a) Moins halluciner : la « Retrieval Augmented Generation » (RAG)
par les « Retrieval Augmented Transformers » (RAT)

b) Manipuler en entrée et en sortie des données de nature variée :
les IA génératives multimodales

c) Faire des systèmes d’IA des interfaces devenant la principale plateforme d’accès aux services numériques

d) Aller vers plus d’autonomie : le défi de l’agentivité

e) Faire plus avec moins : vers une IA frugale et efficace

f) L’exemple de la méthode « Mixture of Experts » (MoE)

3. Synthèse et articulations entre les modèles d’IA

a) Des technologies enchâssées et souvent conjuguées

b) Les Arbres de pensées ou Trees of Thought (ToT) :
l’IA « symboliconnexionniste »

c) La fécondité des hybridations IA symboliques/IA connexionnistes, notamment pour doter ces systèmes d’une représentation du monde réel

d) La variété des domaines de l’intelligence artificielle

III. Le grand marché de l’IA : une chaîne de valeur étendue des matières premières aux consommateurs

A. Du silicium aux applications : la chaîne de valeur complexe de l’intelligence artificielle

1. Un schéma souvent simplifié en quatre étapes

2. La complexité de la dizaine d’étapes de la chaîne

a) L’amont : du silicium aux microprocesseurs

b) La couche multiforme des infrastructures

c) L’étape de définition des modèles : de leur architecture au réglage fin

d) L’aval : les applications

B. La multiplication des modèles proposés au grand public

1. Une domination nette de l’IA générative par la Big Tech américaine

2. Le marché très évolutif des grands modèles de langage (LLM)

3. Les autres modèles d’IA générative disponibles sur le marché

4. Des modèles plus ou moins ouverts : la question de l’open source

Deuxième partie : Les enjeux de l’intelligence artificielle

I. Des problématiques politiques préoccupantes,
surtout à l’heure de l’ia générative

A. Une souveraineté de plus en plus menacée :
Les enjeux géopolitiques de la chaîne de valeur de l’IA

1. Tirer les conséquences du fait que l’IA est d’abord américaine

2. La France et l’Europe, « colonies numériques », ont-elles déjà complètement perdu la course mondiale à l’IA ?

3. Une souveraineté française qui peut encore être défendue en tant que puissance intermédiaire

B. Des risques de manipulations politiques voire de déstabilisation

1. Désinformation au carré

2. Hypertrucages réalistes (« deepfakes »)

3. Cybersécurité et risque d’attaques à grande échelle

a) La typologie des usages malveillants de l’IA générative

b) Comment répondre à ces nouveaux risques en matière de sécurité
face à l’essor de l’IA générative aujourd’hui ?

C. La singularité et le risque existentiel : de l’IAG aux scénarios à la Terminator

1. Que sont l’intelligence artificielle générale (IAG) et la Singularité ?

a) La perspective possible mais pas certaine de l’intelligence artificielle générale rend la singularité et le risque existentiel encore moins probables

b) L’hypothèse des lois d’échelle ou scaling laws

c) Quelques jalons sur les évolutions en cours : des capacités croissantes
et la probabilité de plateaux

2. L’espace des positions face à l’intelligence artificielle générale et au risque existentiel

a) Les techno-pessimistes : l’IA est un risque existentiel et l’alternative un moratoire ou le transhumanisme

b) Les pessimistes modérés : l’IA est une menace, les mesures de prévention une solution

c) Les techno-optimistes : l’absence de menace, la poursuite du développement tranquille de l’IA avec un encadrement pragmatique

II. Des effets globalement positifs pour la société
malgré des impacts économiques contrastés

A. Des améliorations pour le Bien-être et la santé
grâce à l’intelligence artificielle

1. De nombreux outils pour la vie quotidienne

2. De meilleurs systèmes de soins

3. Des effets cognitifs à surveiller dans une économie de l’attention

B. Un impact sur la croissance incertain

1. Des études divergentes, très optimistes ou très mesurées

2. Le retour du « paradoxe de Solow » ?

3. Des besoins d’énergie considérables et croissants laissant planer la menace de risques environnementaux

C. Une transformation considérable du marché du travail

1. Les études quantitatives sur la base des tâches et des compétences

2. Les études qualitatives sur la base d’observations et d’entretiens

3. Des effets encore incertains mais qui appellent un dialogue social

III. Des défis sans précédent pour la sphère culturelle
et le monde scientifique

A. De la domination culturelle anglosaxonne à l’uniformisation cognitive

1. L’IA est américaine et pas que sur un plan économique

a) Une domination par les données

b) Une domination par la culture et la langue

c) Ne pas donner notre langue à ChatGPT ! Pour la diversité linguistique et culturelle

2. Le danger de l’uniformisation cognitive plus encore que culturelle

a) De nouvelles structures mentales

b) Vers une civilisation de poissons rouges ?

c) Éduquer à l’IA, éduquer par l’IA

B. La création au défi de l’impact de l’Intelligence Artificielle sur la propriété intellectuelle et les droits d’auteur

1. Des régimes de propriété intellectuelle fragilisés

2. Des risques contentieux

3. Le modèle économique de la création artistique par l’IA

4. L’avenir de la création artistique

C. Des bénéfices considérables pour la recherche

1. La fertilisation des autres disciplines scientifiques par l’IA

2. Les cas emblématiques de l’analyse du repliement des protéines en 2018
et de la génomique en 2024

3. Les jumeaux numériques et le perfectionnement des simulations

4. Adapter nos politiques de recherche aux perspectives ouvertes par l’IA

Troisième partie : La gouvernance et la régulation de l’intelligence artificielle

I. Les dispositifs nationaux ou régionaux

A. Une politique française de l’intelligence artificielle
en demi-teinte

1. La stratégie nationale en faveur de l’IA depuis 2017 : un retard à l’allumage

2. Le bilan critique de la stratégie et son évaluation par la Cour des comptes

3. Les perspectives de relance de la politique nationale de l’IA

B. D’autres dispositifs nationaux dans l’Union Européenne

1. L’Allemagne : le pays le plus proche du nôtre

2. L’Italie : une stratégie de soutien et de vigilance

3. L’Espagne : un cadre complet avec un riche volet culturel

4. Les Pays-Bas : une coalition public-privé efficace et une régulation précoce

5. L’Estonie : un état numérique préoccupé par la sécurité de l’IA

6. La Finlande : une stratégie tournée vers l’appropriation de l’IA et l’éducation

C. La gouvernance européenne de l’intelligence artificielle

1. Le travail préparatoire conduit par les institutions européennes entre 2018 et 2020

a) La communication de la Commission européenne d’avril 2018

b) Le groupe d’experts de haut niveau sur l’IA

c) Le Livre blanc de la Commission européenne sur l’IA

2. De la proposition de règlement du 21 avril 2021 à la juxtaposition de deux dispositifs à la suite des amendements adoptés

a) Le volet issu du projet initial d’AI Act en 2021 : une régulation des usages selon leurs risques plutôt qu’une régulation de la technologie elle-même

b) Le volet ajouté par les co-législateurs : la régulation des modèles de fondation assortie d’un régime spécifique pour les modèles les plus puissants,
dits « à risque systémique »

c) Les autres aspects de l’AI Act : une polysynodie institutionnelle, une portée extraterritoriale, un calendrier très complexe et une normalisation désinvestie

3. Une gouvernance européenne de l’IA à compléter

a) Mobiliser les entreprises et élaborer de la Soft Law : l’AI Pact et les bonnes pratiques

b) Deux projets de directive complémentaires à l’AI Act : l’intelligence artificielle comme produit sur le marché unique

c) Le soutien européen à la recherche et à l’innovation en IA
au-delà du dispositif EuroHPC

D. Panorama d’autres régulations nationales dans le reste du monde

1. Aux États-Unis, une régulation inachevée

a) Au niveau fédéral : de la stratégie de 2016 à l’Executive Order présidentiel d’octobre 2023

b) Au niveau des États : plusieurs projets à commencer par celui de la Californie

2. En Chine, un développement rapide et centralisé de l’IA et de sa régulation

a) La politique chinoise en faveur d’une IA maîtrisée depuis 2017

b) Un encadrement strict et assez exhaustif des IA génératives

c) Un rival sérieux des États-Unis intéressé par l’AI Act

3. Quelques autres initiatives intéressantes

a) Le Canada

b) Le Brésil

c) Le Japon

d) La Corée du Sud

e) L’Inde

f) Le Royaume-Uni

g) Israël

h) L’Arabie Saoudite

i) Les Émirats arabes unis (EAU)

II. Une dizaine de projets de gouvernance internationale non coordonnés

A. La réflexion technique la plus aboutie : les principes, recommandations et métriques de l’OCDE

1. Les principes, les recommandations et la classification des systèmes

2. La méthodologie des métriques

3. L’Observatoire des politiques publiques de l’IA

B. Le cadre multilatéral en construction

1. La contribution multiforme mais encore inachevée de l’Organisation des Nations unies (ONU)

2. Le travail spécifique de l’Organisation des Nations unies pour l’éducation, la science et la culture (Unesco)

3. Les Principes pour l’IA du G20

C. Les forums fermés du G7, du partenariat mondial sur l’intelligence artificielle et du CONSEIL DU COMMERCE ET DES TECHNOLOGIES UE-ÉTATS-UNIS

1. Le G7 et son « processus d’Hiroshima »

2. L’expertise du Partenariat mondial sur l’intelligence artificielle (PMIA) ou Global partnership on artificial intelligence (GPAI)

3. Le Conseil du commerce et des technologies (CCT) UE-États-Unis

D. Les initiatives non occidentales

1. La Proposition chinoise de gouvernance mondiale de l’IA

2. Le travail des BRICS

3. La stratégie de l’Union africaine

E. Les autres projets de gouvernance mondiale :
Conseil de l’Europe, Forum économique mondial,
initiatives émanant du secteur privé…

1. La Convention-cadre sur l’IA du Conseil de l’Europe

2. L’Alliance pour la gouvernance de l’IA proposée par le Forum économique mondial

3. Des principes et bonnes pratiques proposés par les entreprises au Partnership on AI lancé en 2016 par sept géants de l’IA

4. Le Forum sur les modèles de pointe ou Frontier Model Forum et les autres initiatives

F. Le cadre en construction des sommets pour la sécurité de l’intelligence artificielle et des instituts de sécurité de l’IA

1. Un réseau international d’agences pour la sécurité de l’intelligence artificielle

2. Du sommet de Bletchley Park au rapport de Yoshua Bengio

3. Un sommet en France les 10 et 11 février 2025

III. Les propositions de l’Office

A. Les propositions à soutenir dans le cadre du futur sommet de l’IA

1. Faire reconnaître le principe d’une approche transversale de l’IA et renoncer à l’approche exclusivement tournée vers les risques

2. Proposer de placer la gouvernance mondiale de l’IA sous l’égide d’une seule organisation internationale

3. Initier le cadre d’une régulation globale et multidimensionnelle de l’IA en s’inspirant des travaux de l’OCDE et de l’UE

4. Annoncer un programme européen de coopération en IA, associant plusieurs pays dont au moins la France, l’Allemagne, les Pays-Bas, l’Italie et l’Espagne

5. Associer le Parlement à l’organisation du sommet

B. Les propositions visant à fonder une véritable politique nationale de l’IA

6. Développer une filière française ou européenne autonome sur l’ensemble de la chaîne de valeur de l’intelligence artificielle

7. Mettre en place une politique publique de l’IA avec des objectifs, des moyens et des outils de suivi et d’évaluation

8. Organiser le pilotage stratégique de la politique publique de l’intelligence artificielle au plus haut niveau

9. Former les élèves de l’école à l’Université, former les actifs et former le grand public à l’IA

10. Accompagner le déploiement de ces technologies dans le monde du travail et la société, notamment par la formation permanente

11. Lancer un grand dialogue social autour de l’intelligence artificielle et de ses enjeux

12. Mobiliser et animer l’écosystème français de l’IA

13. Reconduire le programme « Confiance.ai » ou mettre en place un projet équivalent

14. Soutenir la recherche publique en intelligence artificielle selon des critères de transversalité et de diversification des technologies

15. Relever le défi de la normalisation en matière d’intelligence artificielle

16. S’assurer du contrôle souverain des données issues de la culture française et des cultures francophones et créer des jeux de données autour des cultures francophones

17. Préparer une réforme des droits de propriété intellectuelle dont le droit d’auteur pour les adapter aux usages de l’IA générative

18. Confier à l’OPECST le suivi et l’évaluation régulière de la politique publique conduite par le Gouvernement en la matière

Examen du rapport par l’Office

Liste des personnes entendues

Annexes

Lettre de saisine de l’Office par le Bureau de l’Assemblée nationale

Lettre de saisine de l’Office par le Bureau du Sénat

 

 


- 1 -


Synthèse

 

ChatGPT, et après ?
Bilan et perspectives de l’intelligence artificielle

 

Un spectre hante le monde, le spectre de l’intelligence artificielle. Il alimente des angoisses irrationnelles autant que des attentes démesurées. Les technologies d’IA semblent à la fois omniprésentes et insaisissables, pourtant leur diffusion reste encore toute relative et leurs contours sont assez connus des spécialistes. L’IA devient un phénomène de plus en plus politique qui appelle une maîtrise démocratique. Le futur président des États-Unis, Donald Trump, a même déclaré le 28 novembre 2024 qu’il comptait nommer un « tsar de l’intelligence artificielle » qui siègerait à ses côtés à la Maison‑Blanche. Aussi, faire le point sur ces technologies et leurs enjeux apparaît aujourd’hui indispensable.

Saisi en juillet 2023 par les bureaux de l’Assemblée nationale et du Sénat pour étudier les nouveaux développements de l’intelligence artificielle dans le contexte de la révolution de l’IA générative, l’Office présente un rapport qui tente, à la fois, de dresser un bilan des technologies d’intelligence artificielle et d’anticiper les tendances qui se dégagent. Ce rapport retrace les développements technologiques des différents modèles d’IA et le détail de leur fonctionnement, identifie leurs enjeux politiques, économiques, sociétaux, culturels et scientifiques, et aborde les questions de régulation, comparant la stratégie nationale française en IA à près de 20 autres, six dans l’Union européenne et onze dans le reste du monde, et en analysant une dizaine de projets de gouvernance mondiale de l’intelligence artificielle. Il propose en conclusion 18 recommandations, dont cinq à soutenir dans le cadre du Sommet pour l’action sur l’IA qui se tiendra à Paris les 10 et 11 février 2025.

 

I.  Comprendre les technologies d’intelligence artificielle

A.  Une brève histoire de l’intelligence artificielle

Dans le prolongement du rapport de l’Office de mars 2017, ce nouveau rapport revient sur l’histoire et même la préhistoire de l’intelligence artificielle ainsi que sur sa présence forte dans la science-fiction, qui explique pourquoi l’IA suscite à la fois des espoirs excessifs et des craintes pas toujours justifiées.

L’IA n’est pas nouvelle. Elle est liée à la naissance de l’informatique, il s’agit d’ailleurs d’un domaine de l’informatique, une sorte d’informatique avancée dont la frontière fluctue avec le temps. Sa naissance officielle a lieu en 1956 lors d’une école d’été du Dartmouth College.

John McCarthy y introduit le concept d’intelligence artificielle et la définit comme une science visant à simuler les fonctions cognitives humaines. Marvin Minsky précise qu’il s’agit de construire des programmes capables d’accomplir des tâches relevant habituellement de l’intelligence humaine. Depuis, l’IA a connu des périodes de grands espoirs, comme les premières découvertes des années 1960 ou les systèmes experts des années 1980, chacune de ces périodes étant suivie de phases de désillusions, les « hivers de l’IA ».

On distingue deux grandes approches : l’IA symbolique, caractérisée par l’utilisation de règles logiques pour résoudre des problèmes, simulant un raisonnement déductif, et l’IA connexionniste, qui se fonde sur une analyse probabiliste de données, simulant un raisonnement inductif.

B.  Les progrès de l’apprentissage profond dans les années 2010 et l’architecture Transformer

Un nouvel essor de l’IA a lieu depuis les années 2010 grâce aux progrès de l’apprentissage profond ou Deep Learning. L’apprentissage est dit « profond » car ses algorithmes reposent sur des réseaux de neurones artificiels composés de couches multiples. Chaque neurone représente une unité de calculs mathématiques qui correspond à une fonction d’activation. L’efficacité de ces modèles d’IA se développe dans les années 2010 grâce à trois éléments : la mobilisation de ces algorithmes, des corpus de données de taille inédite grâce à Internet, et une puissance de calcul des ordinateurs en augmentation rapide.

Depuis 2017, deux innovations majeures ont accéléré la mise en œuvre de l’IA :

C.  Les questions technologiques et les perspectives d’avenir

Quels sont les avantages et limites de ces technologies ? Et quelles perspectives s’ouvrent pour le futur ? Côté avantages, les applications sont innombrables, côté limites, les IA génératives doivent encore relever plusieurs défis technologiques. L’entraînement des modèles nécessite d’abord des ressources considérables, en infrastructures de calcul comme de stockage des données mais pas seulement : l’IA nécessite en effet des apports considérables d’énergie tout au long de son cycle de vie. Les modèles peuvent générer des erreurs appelées « hallucinations ». Leur production est sujette à des biais présents dans les données ou introduits au stade de leur programmation humaine ; certains ont d’ailleurs dénoncé des IA woke. Enfin, ces modèles continuent de poser les problèmes d’opacité déjà rencontrés pour les anciennes générations de Deep Learning : ces systèmes fonctionnent comme des « boîtes noires », rendant leur explicabilité complexe.

Ces défis nécessitent des efforts de recherche pour améliorer la fiabilité des résultats et réduire la consommation énergétique de ces systèmes. Faire plus avec moins : l’objectif est d’aller vers des IA frugales et efficaces. L’architecture Mamba, alternative aux Transformers repose sur les modèles en espace d’états structurés et articule plusieurs types d’IA. C’est une piste intéressante. Les perspectives pour l’IA seront donc sa frugalité mais aussi sa multimodalité et son agentivité.

Les IA multimodales traitent déjà des données variées (texte, image, son, etc.) et en traiteront bientôt davantage encore, en entrée comme en sortie, pour des usages de plus en plus diversifiés et intégrés. En 2024, GPT‑4o (avec un « o » pour omni) a ajouté aux textes et aux images le traitement d’instructions vocales et même des interactions vidéo. La société xAI a ajouté à son modèle Grok 2 la génération d’images en septembre 2024 puis la compréhension d’images en octobre 2024.

L’agentivité est la capacité des systèmes à être autonomes et proactifs. La principale innovation en 2024 est celle des Agentic Workflows, IA basées sur des LLM et générant une série d’actions permettant une automatisation des tâches en s’adaptant en temps réel à la complexité des flux de travail. Ces outils devraient être particulièrement utiles pour les entreprises.

Les IA vont aussi devenir des interfaces et les principales plateformes d’accès aux services numériques. Ces interfaces rendront les interactions homme-machine plus fluides et pourraient devenir le point d’appui des smartphones et des ordinateurs, agrégeant les fonctionnalités de l’interface du système d’exploitation, des navigateurs web, des moteurs de recherche, des logiciels bureautiques, des réseaux sociaux et d’autres applications. Il est probable qu’à l’avenir les systèmes d’IA deviennent les colonnes vertébrales de contrôle des ordinateurs, à partir desquelles s’articuleront plusieurs services logiciels.

Des solutions technologiques sont également attendues pour faire face à la tendance des LLM à « halluciner », c’est-à-dire à générer des propos dénués de sens ou des réponses objectivement fausses sans émettre le moindre doute. La génération augmentée de récupération (Retrieval Augmented Generation ou RAG) constitue par exemple un moyen d’adjoindre une base de données à un LLM, qui, à l’aide d’un récupérateur, utilise les données de cette base en lien avec l’instruction de l’utilisateur.

D.  La conjugaison entre la logique de l’IA symbolique et l’efficacité de l’IA connexionniste

Les technologies d’IA peuvent être enchâssées les unes dans les autres et conjuguées pour produire de meilleurs résultats. Combiner l’IA connexionniste avec des modèles logiques ou des modèles de représentation du monde réel sera indispensable. L’espace-temps reste en effet inconnu des meilleures IA génératives.

On peut se rapprocher de telles articulations avec les Arbres de pensées ou Trees of Thoughts (ToT). Sans relever directement de l’IA symbolique, cette technique s’en rapproche par son recours à des étapes formelles de raisonnement, les idées venant s’articuler logiquement les unes par rapport aux autres. L’IA devient alors neuro-symbolique car empruntant à la fois des réseaux neuronaux et des raisonnements symboliques. Cette méthode peut être appliquée directement à tous les grands modèles de langage actuels grâce à une instruction décomposée en plusieurs phases de raisonnement. On parle pour ces techniques de prompt engineering. À l’avenir, outre cet art du prompt, on trouvera de nombreuses façons de combiner et d’hybrider les technologies, notamment les deux branches de l’IA, afin que les systèmes se rapprochent de nos raisonnements logiques.

E.  La longue et complexe chaîne de valeur de l’IA

La chaîne de valeur de l’IA comporte une dizaine d’étapes. Tout commence avec l’énergie et les matières premières : les semi-conducteurs en silicium permettent la fabrication des puces, des logiciels permettent de concevoir ces microprocesseurs et des machines lithographiques gravent le silicium à l’échelle moléculaire. Nvidia est devenu, pour le moment, l’acteur dominant de ce premier maillon de la chaîne.

Le deuxième maillon, celui des infrastructures, se subdivise en de nombreuses couches :

- la collecte et le nettoyage de données ;

- le stockage de données dans de vastes data centers ;

- l’informatique en nuage (cloud) pour les calculs ;

- lors de la phase de développement des modèles, le recours spécifique à des supercalculateurs.

La multiplication de ces infrastructures entraîne des coûts très élevés et des impacts environnementaux considérables. Nvidia devra, par exemple, réaliser un chiffre d’affaires de 600 milliards de dollars pour lui permettre un retour sur investissement.

L’étape suivante est celle de la définition des modèles d’IA, elle-même subdivisée en plusieurs phases :

- la conception de l’architecture du modèle ;

- l’entraînement du modèle de fondation à l’aide des infrastructures et d’algorithmes ;

- le réglage fin par des apprentissages supervisés et une phase d’alignement.

Les modèles de fondation s’intercalent donc entre la définition de l’architecture du modèle et le fine-tuning, ce qui permet aux systèmes d’IA d’être déployés pour des applications spécifiques ou d’être diffusés auprès du grand public.

La dernière étape est celle des utilisateurs, les applications caractérisant l’aval. Les systèmes d’IA ne deviennent accessibles aux utilisateurs qu’à travers une couche de services applicatifs, dont les fameux LLM d’OpenAI, comme ChatGPT, conçu à partir du modèle de fondation GPT-4.

 

II.  Les enjeux politiques, économiques, sociétaux, culturels et scientifiques

Trois grandes catégories d’enjeux sont présentées : les problématiques politiques de l’intelligence artificielle, les transformations socio-économiques, et les défis culturels et scientifiques. L’IA est devenue une technologie incontournable, qui transforme nos sociétés et nos économies, mais aussi les rapports de force politiques et géopolitiques.

A.  Les problématiques politiques

La recherche en IA est dominée par la recherche privée, principalement américaine. Les États-Unis, grâce à leurs géants technologiques – les GAFAM, devenus les MAAAM désignant, dans l’ordre, Microsoft, Apple, Alphabet, Amazon et Meta – dominent l’écosystème global de l’IA, avec Nvidia en sus, qui fournit toutes les entreprises en processeurs graphiques. Outre son impact économique, l’IA devient en elle-même un levier de pouvoir géopolitique.

En parallèle, la Chine aspire à devenir leader mondial d’ici 2030, investissant toute la chaîne de valeur, notamment les semi-conducteurs. Ces derniers sont devenus un enjeu de premier plan qui dépasse la seule filière de l’IA. Alors que les deux tiers des puces sont à ce jour fabriquées à Taïwan, les autorités américaines et chinoises cherchent à attirer une part croissante de cette production sur leur sol.

Pour l’Europe, et notamment la France, le défi est celui de la souveraineté numérique, afin d’éviter de devenir une pure et simple « colonie numérique ». L’Union européenne mise aujourd’hui sur la régulation de l’IA, mais cela reste insuffisant face à la taille et à l’avance des puissances américaine et chinoise. La souveraineté numérique contre la domination de la Big Tech américaine appelle au développement d’acteurs français et européens puissants.

L’IA génère de nouveaux risques, notamment à travers la désinformation et les hypertrucages (deepfakes). Les fausses informations ou les trucages ont toujours existé, mais l’IA fait changer d’échelle.

Ces technologies permettent de produire instantanément et massivement des contenus falsifiés réalistes, capables d’influer sur les élections ou de ternir la réputation d’une personnalité publique. Des régulations imposant des filigranes sur ces contenus constituent une réponse, mais elles seront difficiles à appliquer.

L’IA facilite les attaques à grande échelle, à travers la création de logiciels malveillants ou la capture de données sensibles. Ces risques appellent des mesures de sécurité renforcées : sécurisation des modèles, analyse des risques et formation en cybersécurité des développeurs.

L’intelligence artificielle générale (IAG) qui dépasserait les capacités humaines reste une hypothèse incertaine. Bien qu’elle suscite des débats passionnés, ses bases scientifiques comme les lois d’échelle (scaling laws) restent fragiles. Certains craignent que cette IAG fasse courir un « risque existentiel » à l’humanité, comme Elon Musk qui prône même une hybridation homme-machine pour « rivaliser » avec l’IA tandis que d’autres, comme Yann LeCun, estiment que l’IA actuelle demeure très loin du tournant de la Singularité, n’ayant toujours pas de sens commun ou de capacités autonomes réelles.

B.  Les impacts sociétaux et économiques

L’IA améliore déjà la vie, à travers une multitude d’outils pour nous aider au quotidien. Elle optimise nos parcours de transport et surveille notre rythme cardiaque grâce des applications de santé. À l’avenir, diagnostics, dépistages précoces et traitements seront optimisés grâce à l’IA, la recherche médicale sera accélérée et des capteurs permettront d’anticiper des urgences médicales, comme des crises cardiaques. En dépit de tous ces avantages pour la santé, l’utilisation massive de l’IA pourrait aussi avoir des conséquences négatives sur la santé psychologique.

Les travaux qui tentent de prédire l’impact de l’intelligence artificielle sur la croissance ou son potentiel en termes de gains de productivité divergent. L’IA peut stimuler certains secteurs, mais son impact global sur la croissance reste incertain dans un contexte de faible diffusion des technologies. La direction générale du Trésor (DGT) estime qu’il est encore trop tôt pour pouvoir estimer des prévisions chiffrées. Le paradoxe de Solow (« on voit des ordinateurs partout sauf dans les statistiques de productivité ») pourrait se confirmer pour l’IA. Il est vrai que la diffusion de l’innovation est toujours difficile à observer et encore plus à quantifier.

Le coût énergétique de l’IA conduit à un impact environnemental considérable et grandissant : ces systèmes ont une empreinte carbone et un impact sur la ressource en eau élevés, qui ne font que croître car les besoins en énergie de l’IA explosent. Le développement de l’IA menace donc l’atteinte des objectifs climatiques.

Il est difficile d’évaluer précisément l’impact de ces technologies sur le marché du travail. Un consensus semble cependant se dégager : plus qu’un remplacement des emplois par l’IA, on va assister à une transformation des tâches et des métiers par ces technologies. L’ampleur et les modalités de ces transformations ne sont cependant pas mesurées de la même façon par toutes les études. Même si ces effets restent encore incertains, ils appellent un dialogue social pour accompagner les transitions. L’IA pourrait augmenter la productivité et parfois exacerber les inégalités, cela appelle une certaine vigilance.

Elle nécessite la mise en place de politiques publiques de formation initiale et de formation continue, dans le but d’anticiper les évolutions et d’accompagner les travailleurs. Des politiques de requalification ambitieuses sont indispensables.

C.  Les défis culturels et scientifiques

L’IA, dominée par des acteurs anglo-saxons, risque d’accentuer fortement l’hégémonie culturelle des États‑Unis. Ce phénomène d’uniformisation culturelle appauvrit la diversité culturelle et linguistique, mais crée aussi une uniformisation cognitive. Le capitalisme cognitif qui repose sur la conjugaison des écrans et de l’IA conduit à une « économie de l’attention » préoccupante, notamment car elle enferme l’utilisateur des technologies dans des bulles de filtres. Cet enfermement informationnel polarise les visions de chacun dans des croyances subjectives. Ce sont autant de prisons mentales qui se déclinent à l’échelle individuelle. Cette tendance n’est que d’apparence paradoxale : on assiste, dans le même temps, à une polarisation marquée des opinions et des identités (selon les variables de la culture américaine, avec une forte dimension émotionnelle) et à une uniformisation culturelle doublée d’une uniformisation cognitive.

Ces conséquences de l’IA, des écrans et du numérique sur la cognition doivent nous mobiliser, surtout en direction des jeunes générations et des petits enfants, particulièrement victimes de ces impacts cognitifs, et ce de manière irréversible. L’éducation au numérique en général et à l’IA en particulier est une urgence impérieuse pour la cohésion de nos sociétés et la santé de chacun.

La France doit défendre sa langue et ses spécificités culturelles face à des systèmes d’IA comme les grands LLM qui privilégient l’anglais et la culture américaine sur un plan linguistique et culturel. Nous ne devons pas donner notre langue à ChatGPT ! Il faut conserver la diversité linguistique et culturelle de l’humanité. La France a besoin de modèles d’IA les plus souverains possibles, reflétant sa culture, entraînés avec des données qui la reflètent fidèlement et qui mobilisent des sources issues de son riche patrimoine culturel et linguistique.

Par ailleurs, si les raisonnements par induction, probabilistes, sont prometteurs et donnent souvent des résultats impressionnants, ils tendent à faire oublier le grand intérêt des raisonnements déductifs, sur lesquels s’est construite la plus grande partie des connaissances scientifiques. La généralisation de cas particuliers sous l’effet des données massives traitées par l’IA connexionniste est devenue la règle, or le résultat d’une inférence suivant un raisonnement inductif, même fondé sur des milliards d’exemples, peut toujours être démenti par un ou plusieurs contre-exemples.

Les deux formes de raisonnement – déductif et inductif – doivent continuer à cohabiter de manière plus équilibrée sans quoi cette ère de l’IA et du Big Data va conduire tous les habitants de la planète à penser selon le même mode, non seulement, sans le savoir, avec les mêmes cadres en termes de références culturelles, mais aussi selon les mêmes structures cognitives, tournées vers l’induction.

L’IA mobilise des données protégées par le droit d’auteur ou par le copyright. Les artistes et les créateurs sont confrontés à des questions inédites relatives aux droits d’auteur et à leurs modèles économiques. Par exemple, les œuvres générées par IA peuvent brouiller les frontières entre originalité et imitation, remettant en question les régimes traditionnels de protection de la propriété intellectuelle. Une réflexion doit s’ouvrir sur le sujet de la propriété intellectuelle et de la création artistique à l’heure de l’intelligence artificielle. Dans ce contexte d’incertitudes, les risques contentieux sont de plus en plus grands, qu’il s’agisse de l’utilisation d’œuvres protégées pour entraîner les modèles, de la protection des œuvres générées par des systèmes d’IA ou de tout autre litige qui pourrait émerger. En l’absence de règles claires, il reviendra aux juges de trancher les litiges. Le rôle de la jurisprudence sera donc central et laisse les artistes, les entreprises et les utilisateurs dans un flou juridique anxiogène, avec des risques financiers potentiellement non négligeables. C’est pourquoi une clarification de ces enjeux et des régimes juridiques applicables est indispensable.

Dans le domaine scientifique, l’IA fertilise les autres disciplines et ouvre des perspectives immenses, comme en témoignent les exemples de la génomique, de la modélisation du repliement des protéines ou de la création de jumeaux numériques. Ces avancées permettront de résoudre de plus en plus de problèmes complexes et d’accélérer les découvertes. Il n’est pas anodin que les prix Nobel 2024 de Physique et de Chimie soient l’un et l’autre revenus à des chercheurs en IA. Les bénéfices potentiels de ces technologies nécessitent une adaptation de nos politiques de recherche.

Si l’intelligence artificielle est porteuse d’immenses opportunités, elle implique aussi de relever des défis complexes. L’IA soulève plusieurs questions éthiques, ce qui renvoie au thème de son alignement : comment garantir que l’IA s’aligne sur nos valeurs, respecte les droits de l’homme et les principes humanistes ? Il est à cet égard crucial de partager des bonnes pratiques, d’élaborer des cadres réglementaires, de renforcer la souveraineté technologique, et surtout d’éduquer nos sociétés aux enjeux de ces technologies. Ces perspectives nécessitent une gouvernance internationale pour encadrer les développements en cours et anticiper d’éventuels risques.

 

III.  La gouvernance et la régulation de l’intelligence artificielle

Plusieurs initiatives ont été prises en matière de régulation de l’IA, à l’échelle de chaque pays à travers des stratégies nationales en IA, ainsi qu’au niveau international.

A.  Une stratégie nationale pour l’IA en demi-teinte

Depuis 2017, la France a tenté de structurer une stratégie nationale mais le plan « France IA » lancé en janvier 2017 a été rapidement abandonné.

Un an plus tard, sur la base d’un rapport émanant de l’ancien président de l’Office, Cédric Villani, le Président de la République a annoncé le 29 mars 2018 une « stratégie nationale et européenne pour l’intelligence artificielle », qui visait à faire de la France un leader mondial en IA.

Cette stratégie a permis la labellisation de quatre Instituts Interdisciplinaires en Intelligence artificielle (3IA), le financement de chaires et de doctorats ainsi que l’investissement dans des infrastructures de calcul comme les supercalculateurs Jean Zay, inauguré en 2019, et Adastra, inauguré en 2023, et dont les performances atteignent respectivement 36,85 pétaflops et 74 pétaflops (Jean Zay devrait toutefois atteindre 125,9 pétaflops à la fin de cette année).

À titre de comparaison, l’entreprise d’Elon Musk xAI qui développe le système Grok s’est dotée du supercalculateur Colossus développant 3,4 exaflops, composé de 100 000 processeurs Nvidia Hopper 100. Sa taille devrait doubler d’ici quelques mois pour atteindre 200 000 processeurs. Le supercalculateur Jean Zay, après son extension prévue d’ici la fin de l’année 2024, sera quant à lui doté de 1 456 puces Nvidia Hopper 100.

D’autres limites de cette stratégie nationale en IA sont notamment relevées par la Cour des comptes dans un rapport d’avril 2023 qui fait apparaître :

- des résultats insuffisants, la France ayant continué à décrocher au niveau international depuis 2018 ;

- une coordination interministérielle insuffisante.

Le pilotage de la stratégie nationale en IA reste toujours défaillant en 2024 : le coordinateur rattaché initialement à la direction interministérielle du numérique et des systèmes d’information et de communication (DINSIC), puis à la direction générale des entreprises (DGE) du ministère de l’économie, est sans autorité réelle sur la stratégie et sa mise en œuvre. L’instabilité du titulaire de cette fonction et les vacances répétées du poste témoignent d’une mauvaise définition du rôle de ce coordinateur national. La stratégie demeure en réalité sans pilote, évoluant au gré des annonces de l’exécutif et des événements organisés autour de l’IA.

La Commission de l’intelligence artificielle a proposé en 2024 un investissement massif de 27 milliards d’euros sur cinq ans pour la formation, la recherche, et le développement d’un écosystème robuste en IA. La mise à disposition de sommes aussi conséquentes pour la stratégie nationale en IA semble peu probable. Lors du rassemblement des plus grands talents français de l’IA à l’Élysée le 21 mai 2024, le Président de la République a annoncé un plan d’investissement de 400 millions d’euros pour financer neuf pôles d’excellence en IA, comprenant les quatre anciens Instituts 3IA, l’objectif étant de passer de 40 000 à 100 000 personnes formées à l’IA par an. Il pourrait être judicieux de commencer par reconduire le programme Confiance.ai, peu coûteux pour les finances publiques (3,75 millions d’euros par an).

B.  Les comparaisons internationales et les projets de gouvernance mondiale de l’IA

Le rapport décrit près de vingt autres stratégies nationales, six mises en place dans l’Union européenne et onze dans le reste du monde.

La réglementation de l’Union européenne, complexe et peu propice à l’innovation, est analysée en détail dans le rapport. L’AI Act conjugue un dispositif régulant les usages de l’IA selon leur niveau de risque et un encadrement des modèles d’IA selon leur puissance.

Le rapport recense également toutes les initiatives ayant pour objet une gouvernance mondiale de l’IA. On en compte une dizaine, ce qui n’est pas efficace : les projets de l’ONU, de l’Unesco, de l’OCDE, du Conseil de l’Europe, du G20, du G7, du Partenariat mondial sur l’intelligence artificielle (PMIA) (ou Global partnership on artificial intelligence – GPAI), du Conseil du commerce et des technologies (CCT) UE-États-Unis, du Forum économique mondial, des BRICS, de la Chine, etc., s’accumulent.

Ceci plaide pour une convergence autour d’une régulation internationale unique.

Le rapport met en évidence des efforts nationaux inégaux pour réguler l’IA, tout en soulignant le besoin d’une approche la plus coordonnée possible.

Le prochain sommet sur l’IA qui sera organisé par la France en 2025 sera une bonne occasion de promouvoir une gouvernance mondiale cohérente pour aborder les enjeux de l’IA dans leur globalité, sans se limiter au sujet de la sécurité.

L’Office a un rôle à jouer dans cette révolution technologique, pour aider le gouvernement à structurer sa propre stratégie, mais aussi pour contribuer à cette future gouvernance mondiale de l’IA.

 

IV.  Les propositions de l’Office

Le rapport propose 18 recommandations, dont cinq sont consacrées à la préparation du futur sommet de l’IA qui se tiendra à Paris les 10 et 11 février prochain.

Les propositions à soutenir dans le cadre du futur sommet de l’IA

  1.         Faire reconnaître le principe d’une approche transversale de l’IA et renoncer à l’approche exclusivement tournée vers les risques

Cinq thèmes seront l’objet du sommet (l’IA au service de l’intérêt public avec la question des infrastructures ouvertes ; l’avenir du travail ; la culture ; l’IA de confiance ; et la gouvernance mondiale de l’IA). Il faudra que le sommet aille plus loin et permette d’inscrire solennellement le principe d’une approche transversale des enjeux de l’IA au sein d’une déclaration des participants. Les cinq thèmes retenus pour le sommet éludent deux dimensions qu’il faudrait prendre en compte de manière prioritaire :

- l’éducation, qui pourrait être ajoutée à la verticale culture avec pour intitulé « éducation et culture » ;

- la souveraineté numérique, qui pourrait être ajoutée à la verticale « l’IA au service de l’intérêt public » avec pour intitulé « souveraineté numérique et intérêt général ».

  1.         Proposer de placer la gouvernance mondiale de l’IA sous l’égide d’une seule organisation internationale

Le sommet doit être l’occasion de clarifier et rationaliser la dizaine de projets visant à créer une gouvernance mondiale de l’IA. Aussi, il est proposé de placer la gouvernance mondiale de l’IA sous l’égide d’une seule organisation internationale, à savoir l’ONU, seule organisation pleinement légitime sur le plan multilatéral.

  1.         Initier le cadre d’une régulation globale et multidimensionnelle de l’IA en s’inspirant des travaux de l’OCDE et de l’UE

L’approche de la régulation mondiale de l’IA doit être multidimensionnelle, afin de traiter la question de l’ensemble de la chaîne de valeur de l’IA et comme le montrent les travaux de l’OCDE et de l’UE.

  1.         Annoncer un programme européen de coopération en IA

Ce programme doit associer plusieurs pays dont au moins la France, l’Allemagne, les Pays-Bas, l’Italie et l’Espagne, ces pays partageant une vision similaire de l’IA et de ses enjeux.

  1.         Associer plus étroitement le Parlement à son organisation

Afin de garantir une plus grande légitimité du futur sommet, l’Office demande que le Parlement soit plus étroitement associé à son organisation. La présence d’un député et d’un sénateur au sein du comité de pilotage du sommet serait un gage de crédibilité. Elle marquerait l’attention portée par les pouvoirs publics à l’indispensable dimension démocratique d’un encadrement de l’IA à l’échelle internationale.

Les propositions en faveur d’une véritable politique nationale de l’IA

  1.         Développer une filière française ou européenne autonome sur l’ensemble de la chaîne de valeur de l’intelligence artificielle

Un objectif doit mobiliser les pouvoirs publics nationaux et locaux, les décideurs économiques, les associations et les syndicats : viser le développement d’une filière française ou européenne autonome sur l’ensemble de la chaîne de valeur de l’intelligence artificielle, même sans chercher à rivaliser avec les puissances américaine et chinoise.

En effet, mieux vaut une bonne IA chez soi qu’une très bonne IA chez les autres. Que ce soit au niveau européen, dans le cadre de l’UE ou avec une coopération renforcée entre quelques pays, ou directement au niveau national, la France doit relever ce défi de construire pour elle, en toute indépendance, les nombreux maillons de la chaîne de valeur de l’intelligence artificielle.

  1.         Mettre en place une politique publique de l’IA avec des objectifs, des moyens et des outils de suivi et d’évaluation

Pour être efficace, la stratégie nationale pour l’IA ne peut se passer d’objectifs clairement définis, de moyens réels dont une gouvernance digne de ce nom, et d’outils de suivi et d’évaluation. Ces éléments sont aujourd’hui cruellement absents des politiques publiques menées en France en matière d’IA. Plus largement, la politique de la Start-up Nation avec son bras armé la French Tech, trop élitiste et souvent inadaptée, est à abandonner au profit d’une politique de souveraineté numérique, cherchant à construire notre autonomie stratégique et à mailler les territoires.

  1.         Organiser le pilotage stratégique de la politique publique de l’IA au plus haut niveau

La stratégie nationale pour l’IA ne dispose pas d’une gouvernance digne de ce nom, il faudra mieux coordonner la politique publique nationale de l’intelligence artificielle et lui donner une réelle dimension interministérielle.

  1.         Former les élèves de l’école à l’Université, former les actifs et former le grand public à l’IA

Il est indispensable de lancer de grands programmes de formation à l’IA à destination des scolaires, des collégiens, des lycéens, des étudiants, des actifs et du grand public. Les politiques conduites en ce domaine par la Finlande sont des modèles à suivre. La démystification de l’IA est une première étape importante et nécessaire pour favoriser la diffusion de la technologie.

  1.     Accompagner le déploiement de ces technologies dans le monde du travail et la société, notamment par la formation permanente

S’il est difficile de prévoir l’impact précis que l’IA aura sur le marché du travail, il faut tout de même accompagner le déploiement de ces technologies, notamment l’IA générative, dans le monde du travail, en particulier par des programmes de formation permanente ambitieux. Des études qualitatives et quantitatives sur l’impact de l’IA sur l’emploi, le tissu social (dont les inégalités) et les structures cognitives devront également être régulièrement menées.

  1.     Lancer un grand dialogue social autour de l’intelligence artificielle et de ses enjeux

Le dialogue social par la négociation collective peut être renouvelé par l’introduction de cycles de discussions tripartites autour de l’IA et de ses enjeux. Une opération d’envergure nationale, comme un Grenelle de l’IA, pourrait également être organisée. Le dialogue social autour de l’IA devra se décliner dans les entreprises pour permettre une meilleure diffusion des outils technologiques et un rapport moins passionné à leurs conséquences.

  1.     Mobiliser et animer l’écosystème français de l’IA

Tous les acteurs de l’IA, la recherche publique et privée, les grands déployeurs de systèmes mais aussi l’ensemble des filières économiques doivent s’insérer dans une grande mobilisation générale. Le rapport préconise aussi des pôles d’animation régionaux. Des expériences étrangères peuvent être des sources d’inspiration comme la structure NL AI Coalition, créée par le gouvernement néerlandais, qui rassemble depuis cinq ans l’écosystème public et privé de l’IA aux Pays-Bas, avec le concours du patronat, des universités et des grands centres de recherche. Elle s’appuie sur sept centres régionaux.

  1.     Reconduire le programme « Confiance.ai » ou mettre en place un projet équivalent

Le programme « Confiance.ai » réunissait dans une logique partenariale de grands acteurs académiques et industriels français dans les domaines critiques de l’énergie, de la défense, des transports et de l’industrie et avait pour mission de permettre aux industriels d’intégrer des systèmes d’IA de confiance dans leurs process. Il ne coûtait pas cher et était efficace. Or il s’est interrompu en 2024. Il est proposé de le reconduire ou de mettre en place un projet équivalent.

  1.     Soutenir la recherche publique en intelligence artificielle selon des critères de transversalité et de diversification des technologies

La recherche privée en intelligence artificielle a pris beaucoup d’avance sur la recherche publique, mais cette dernière doit revenir dans la course. La soutenir davantage est un impératif. L’Office juge pertinent de l’orienter vers des activités transdisciplinaires et, plus globalement, transversales autour de « projets de recherche » en IA.

La diversification des technologies est également fondamentale : les avancées en IA se font par la combinaison et la recomposition de savoirs et de savoir-faire, pas par l’enfermement dans un modèle unique.

Par exemple, l’IA symbolique ne doit pas être abandonnée, elle peut s’hybrider avec les IA connexionnistes pour forger de nouvelles approches logiques, imbriquant le signifiant et le signifié, plus proches des raisonnements humains.

D’autres technologies permettant d’apporter plus de logique aux systèmes d’IA générative peuvent également inspirer de nouvelles perspectives pour la recherche, comme les modèles Mixture of Experts (MoE), des modèles de représentation du monde (World Models), la génération augmentée de récupération ou Retrieval Augmented Generation (RAG) ou encore les arbres de pensées ou Trees of Thoughts (ToT).

Pour paraphraser Rabelais qui écrivait que « Science sans conscience n’est que ruine de l’âme », on peut affirmer que « l’IA sans logique n’est qu’illusion d’intelligence ».

  1.     Relever le défi de la normalisation en matière d’intelligence artificielle

Il faut permettre à la France de défendre au mieux l’intérêt national ainsi que les intérêts de ses entreprises nationales en matière de normalisation de l’IA, ce qui implique de mobiliser davantage l’Afnor et le Cofrac.

La France doit également inviter ses partenaires européens à faire preuve d’une plus grande vigilance dans le choix de leurs représentants dans les comités responsables de la normalisation en IA : s’appuyer sur des experts issus d’entreprises extra-européennes, le plus souvent américaines ou chinoises, n’est pas acceptable.

  1.     S’assurer du contrôle souverain des données issues de la culture française et des cultures francophones et créer des bases de données autour des cultures francophones

Il s’agit d’un acte de résistance face à la domination linguistique et culturelle américaine, qui caractérise l’IA aujourd’hui et qui fait courir un risque grave d’uniformisation culturelle et d’appauvrissement linguistique. Les initiatives conduites par certains pays, en particulier l’Espagne, peuvent inspirer notre pays.

  1.     Préparer une réforme des droits de propriété intellectuelle, dont le droit d’auteur, pour les adapter à l’IA et surtout aux usages de l’IA générative

L’objectif d’une telle réforme sera à la fois de clarifier les régimes juridiques applicables, de protéger les ayants droit des données ayant servi à l’entraînement des modèles mais aussi les créateurs d’œuvres nouvelles grâce à l’IA.

  1.     Confier à l’OPECST le suivi et l’évaluation régulière de la politique publique conduite par le Gouvernement

Les aspects scientifiques et technologiques de l’intelligence artificielle ainsi que les enjeux qu’ils soulèvent appellent une expertise à la croisée des mondes politique et scientifique, ce qui est la mission de l’OPECST. C’est pourquoi, comme l’avait d’ailleurs proposé la commission des lois de l’Assemblée nationale dans un rapport, il semble judicieux de confier à l’OPECST le suivi permanent des questions relatives à l’intelligence artificielle.

 

 

 

 


- 1 -


Avant-propos

 

 

Le présent rapport répond à une saisine de l’Office par les bureaux de l’Assemblée nationale et du Sénat en juillet 2023, ce qui est exceptionnel[1]. Il s’agissait de manifester un soutien au plus haut niveau des deux assemblées aux travaux de l’OPECST à l’occasion de son 40e anniversaire. Quatre rapporteurs ont été désignés le 26 octobre 2023 dans une composition doublement paritaire : deux députés et deux sénateurs, deux femmes et deux hommes. Ils représentaient, de plus, la diversité de l’éventail politique national.

 Le présent rapport n’est pas le premier travail de l’Office sur le thème de l’intelligence artificielle : en 2016 et 2017, nos anciens collègues Claude de Ganay et Dominique Gillot ont ainsi conduit des investigations très poussées sur ce sujet d’intérêt capital. Le rapport pionnier qu’ils ont rendu au nom de l’Office[2] a marqué l’histoire des analyses relatives à ces technologies et il y sera parfois renvoyé dans le cadre des développements du présent rapport.

Ce rapport exigeait, dans une modernité notable face à l’évolution rapide de ces techniques et du vocabulaire qui leur est associé, que l’ensemble de ces technologies soient en effet « maîtrisées, utiles et fassent l’objet d’usages conformes à nos valeurs humanistes »[3] : même si le fait de concevoir des machines réellement intelligentes restait surtout selon eux une préoccupation de long terme, la « question de savoir comment aligner les valeurs de ces machines avec les valeurs morales humaines mérite d’être posée dès aujourd’hui » disaient très sagement nos collègues.

Leur rapport a même apporté quelques réponses solides et argumentées à la question tout en précisant que ses préconisations devraient être « remises en débat au fur et à mesure des nouvelles découvertes scientifiques, de leurs transferts et de leurs usages ». Les deux rapporteurs tenaient surtout à ce que « le point d’équilibre qu’ils ont cherché à atteindre dans leur rapport puisse évoluer, en fonction des évolutions du contexte résultant du jeu de ces variables »[4].

Parmi les 15 propositions de ce rapport en mars 2017 figurait, par exemple, le fait de :

- favoriser des algorithmes et des robots sûrs, transparents et justes ;

- prévoir une charte de l’intelligence artificielle et de la robotique ;

- confier à un institut national de l’éthique de l’intelligence artificielle et de la robotique un rôle d’animation du débat public sur les principes éthiques qui doivent encadrer ces technologies ;

- encourager la constitution de champions européens en intelligence artificielle et en robotique ;

- redonner en IA une place essentielle à la recherche fondamentale et revaloriser la place de la recherche publique par rapport à la recherche privée ;

- mobiliser la communauté française de la recherche en intelligence artificielle ;

- accompagner les transformations du marché du travail en menant une politique de formation continue ambitieuse visant à s’adapter aux exigences de requalification et d’amélioration des compétences ;

- élargir l’offre de cursus et de modules de formation aux technologies d’intelligence artificielle dans l’enseignement supérieur et créer, en France, au moins un pôle d’excellence international et interdisciplinaire en IA ;

- former à l’éthique de l’intelligence artificielle et de la robotique dans les cursus spécialisés de l’enseignement supérieur :

- former à l’informatique dans l’enseignement primaire et secondaire ;

- former et sensibiliser le grand public à l’intelligence artificielle et à ses conséquences pratiques ;

- assurer une meilleure prise en compte de la diversité et de la place des femmes dans la recherche en intelligence artificielle.

Ces propositions, quand elles n’ont pas encore été traduites dans les faits, restent d’actualité.

Le dernier point a, par exemple, justifié l’organisation au Sénat d’une audition sur la place des femmes dans l’intelligence artificielle, le 7 mars 2024, au cours de laquelle on s’est demandé pourquoi on dénombrait si peu de femmes dans les métiers de l’IA[5].

Le présent rapport répond à une saisine assez précise puisqu’il s’agit de traiter des « nouveaux développements » de l’IA, ceux intervenus en particulier depuis le premier rapport de 2017.

Et de nouveaux développements, il y a eu. Les innovations s’accélèrent trimestre après trimestre. Depuis quelques années, on observe en effet que les cycles de révolution en IA sont en moyenne de trois mois.

En septembre 2017, quelques mois après la publication du rapport de l’OPECST, une nouvelle architecture d’intelligence artificielle était ainsi proposée par des chercheurs de Google : les Transformers. Ces algorithmes, comprenant des centaines de milliards voire des milliers de milliards de paramètres sont devenus des systèmes d’IA générative accessibles au grand public et ont notamment abouti à des applications populaires telles que ChatGPT, lancée en novembre 2022 et à laquelle le titre du rapport fait un clin d’œil appuyé en se demandant ce qui se joue au-delà de cette application en elle-même.

Ces technologies, capables de générer du texte, des images ou d’autres contenus en réponse à des commandes en langage naturel (ou prompts en anglais), représentent une nouvelle étape significative dans la longue histoire de l’intelligence artificielle et posent de nouvelles questions à nos sociétés.

Si c’est au milieu du XXe siècle, en même temps que l’informatique, que se développe et qu’apparaît formellement la notion d’intelligence artificielle, il ne fait aucun doute que les sept dernières années ont marqué une étape fondamentale dans les progrès de ces technologies. Ce constat valide près de 80 ans après le propos de Georges Bernanos placé en ouverture liminaire du présent rapport, qui nous rappelle avec un ton mi-positiviste, mi‑nostalgique, que « le progrès n’est plus dans l’homme, il est dans la technique, dans le perfectionnement des méthodes capables de permettre chaque jour une utilisation plus efficace du matériel humain »[6]. À l’heure des IA génératives, cette phrase nous a semblé faire écho à la riche actualité de ces systèmes de plus en plus présents dans nos vies et dans nos sociétés.

Après le premier rapport de l’Office sur l’IA rendu public en mars 2017, il est nécessaire de remettre l’ouvrage sur le métier pour analyser le fonctionnement de ces nouvelles IA et leurs défis, sans chercher à récapituler tous leurs domaines d’application et leurs cas d’usage, qui sont innombrables.

Cette nécessité apparaît d’autant plus grande que très peu de travaux parlementaires sont consacrés à l’intelligence artificielle. Outre le rapport de l’Office précité, on peut relever un ensemble de travaux de la délégation à la prospective du Sénat[7] et le rapport d’information de la commission des lois de l’Assemblée nationale déposé le 14 février 2024 en conclusion des travaux de sa mission d’information sur les défis de l’intelligence artificielle générative en matière de protection des données personnelles et d’utilisation du contenu généré dont les rapporteurs étaient nos collègues députés Philippe Pradal et Stéphane Rambaud[8]. Deux autres rapports établis au nom de la commission des affaires européennes du Sénat et proposant des résolutions en réponse à la stratégie européenne pour l’intelligence artificielle de la Commission européenne en 2019[9] et à la proposition de règlement européen sur l’intelligence artificielle en 2023[10] peuvent aussi être mentionnés. En outre, la commission des lois du Sénat a mis en place une mission d’information sur le point de rendre un rapport sur l’impact de l’IA sur les professions du droit[11].

Vos rapporteurs ont voulu fournir des éléments de réponse à plusieurs interrogations. Comment fonctionnent ces technologies, en particulier les IA génératives ? Quels avantages et quels inconvénients présentent-elles ? Quels biais persistent dans l’usage des données et dans les programmations ? Posent-elles des difficultés en termes de souveraineté, de sécurité ou de régulation ? Quelles gouvernances nationales, européennes voire internationales sont mises en place ? Faut-il faire évoluer ces cadres de régulation ? Si oui, dans quelles directions ? Comment la France doit-elle se positionner par rapport à ces enjeux de gouvernance et par rapport aux évolutions technologiques et économiques en cours ? Et quelles perspectives la recherche permet-elle de dessiner pour le futur ? Va-t-on vers l’intelligence artificielle générale (IAG), voire vers une IA qui nous serait même supérieure ? Dans cette perspective, appelée singularité, devons-nous considérer que nous aurons à faire face à un risque existentiel ?

 


- 1 -


Première partie
Comprendre les technologies
d’intelligence artificielle

 

Vos rapporteurs ont jugé indispensable, pour traiter des nouveaux développements de l’IA depuis 2017, de retracer tout d’abord l’histoire de ces technologies, en mettant l’accent sur leur fonctionnement ainsi que sur le contenu et les contours du concept d’IA.

Avant même d’évoquer l’histoire de l’intelligence artificielle, il est proposé de reconstruire brièvement sa préhistoire.

Cette archéologie du savoir – pour reprendre la démarche de Michel Foucault – est utile en ce qu’elle permet d’identifier l’ensemble des représentations et des enjeux qui relèvent de ces technologies, en particulier d’un point de vue culturel. Ces perceptions traditionnelles de l’IA, qui peuvent être certes différentes de la réalité effective de ces technologies, influencent du reste la façon dont ces dernières sont conçues.

Ainsi que l’exprimait Marie Curie « dans la vie, rien n’est à craindre, tout est à comprendre », alors plutôt que de s’épouvanter en débattant des risques que ferait courir l’IA, il est en effet primordial en suivant l’invite de Marie Curie (un prompt dirait-on en anglais) de commencer par chercher à comprendre ce que recouvre exactement la notion d’intelligence artificielle et d’appréhender avec rigueur le fonctionnement de ces technologies complexes.

C’est là tout l’objet de cette première partie.

 

I.  Histoire de la notion d’intelligence artificielle

A.  La préhistoire de l’intelligence artificielle et ses représentations culturelles

En 2021, a été mis en place un séminaire pluridisciplinaire autour de l’histoire culturelle de l’intelligence artificielle[12], quelques années après le rapport précité de l’OPECST qui, en 2017, jugeait nécessaire, pour mieux comprendre les IA modernes, de les replacer dans le contexte des incarnations de l’intelligence artificielle qui ont jalonné notre longue histoire, qu’il s’agisse de mythes anciens ou de projets imaginés par des écrivains et des scientifiques[13].

Le Conseil d’État explique dans une étude sur l’IA[14] que « la très forte charge symbolique de l’expression intelligence artificielle, ainsi que l’absence de définition partagée et de consensus sur le contenu même de la notion, contribuent puissamment à la confusion et compliquent l’examen rationnel des avantages et des inconvénients de ce qui est, d’abord et avant tout, un ensemble d’outils numériques au service de l’humain ». Démystifier l’IA impose de déconstruire les apports culturels ayant produit la cristallisation de cette très forte charge symbolique.

1.  De la mythologie antique aux machines à calculer

Il est fait mention dès l’Égypte ancienne de statues articulées, animées par la vapeur et par le feu, qui hochaient la tête et bougeaient les bras, véritables ancêtres des automates. Homère a décrit dans L’Iliade des servantes en or douées de raison : « Fabriquées par Héphaïstos, le dieu forgeron, elles ont, selon le poète, voix et force ; elles vaquent aux occupations quotidiennes à la perfection, car les immortels leur ont appris à travailler. Ce sont donc des robots, au sens étymologique de travailleurs artificiels » ainsi que le rappelle Jean-Gabriel Ganascia, entendu par vos rapporteurs. Ovide dans ses « Métamorphoses » crée la figure de Galatée, statue d’ivoire sculptée par Pygmalion et à laquelle Vénus, déesse de l’amour, accepte de donner vie. La Bible, par le Psaume 139:16, a fondé le mythe du Golem, cette créature d’argile humanoïde que l’on retrouve souvent dans la tradition cabalistique juive.

Parallèlement à ces développements mythologiques, la science tâtonne pendant des siècles mais pose tout de même des jalons concernant la future intelligence artificielle. Ces technologies d’IA sont filles des mathématiques et se basent sur des algorithmes[15].

Le mot algorithme est issu de la latinisation du nom du mathématicien Al-Khawarizmi, dont le titre d’un des ouvrages  Abrégé du calcul par la restauration et la comparaison »), écrit en arabe entre 813 et 833, est également à l’origine du mot algèbre. Il est le premier à proposer des méthodes précises de résolution des équations du second degré, du type « ax² + bx + c =0 ».

La longue histoire des algorithmes est bien décrite par Serge Abiteboul et Gilles Dowek, dans leur ouvrage Le temps des algorithmes. Ils y rappellent que les algorithmes sont utilisés depuis des milliers d’années : Euclide a inventé en l’an 300 avant notre ère un algorithme de calcul du plus grand diviseur commun de deux nombres entiers. Pour se représenter au sens familier ce qu’est un algorithme, il faudrait penser à une sorte de recette de cuisine : en suivant une série d’instructions, un ensemble d’ingrédients (les inputs) permettent de parvenir à un plat précis (les outputs).

En 1495, en vue de festivités organisées à Milan, Léonard de Vinci imagine puis construit, bien que ce dernier point reste débattu, un « chevalier mécanique », sorte de robot automate revêtu d’une armure médiévale. Sa structure interne en bois, avec quelques parties en métal et en cuir, était actionnée par un système de poulies et de câbles.

Avec ses « animaux-machines », René Descartes proposa, quant à lui, dans la première moitié du XVIIe siècle, de reproduire artificiellement les fonctions biologiques, y compris la communication et la locomotion. Blaise Pascal à 19 ans réfléchit à la création d’une machine à calculer mécanique et, trois ans plus tard, aboutit à la création en 1645 de sa « machine d’arithmétique », initialement désignée ainsi puis dénommée roue pascaline et, enfin, pascaline. Projet qu’il abandonnera tout comme ses autres entreprises scientifiques pour se consacrer à l’étude de la philosophie et à la religion[16]. À la fin du XVIIe siècle, Gottfried Leibniz imagine ensuite une machine à calculer capable de raisonner. Il construit lui aussi un prototype de machine à calculer en 1694, basée sur un cylindre cannelé[17].

Pendant le siècle des Lumières, le philosophe français Julien de la Mettrie anticipe le jour où les progrès de la technique permettront de créer un homme-machine tout entier, à l’âme et au corps artificiels. L’abbé Mical et Kratzenstein imaginent une machine à parler en 1780, bientôt construite par le baron Von Kempelen grâce à une cornemuse à tuyaux multiples, aujourd’hui propriété du « Deutsches Museum » de Munich.

Au milieu du XIXe siècle, le logicien britannique George Boole appelle à mathématiser la logique en faisant du raisonnement déductif une série de calculs[18], l’économiste britannique William Stanley Jevons inspiré par Boole imagine puis construit un piano mécanique capable de raisonner selon des prémisses de logique pure[19] et, surtout, le mathématicien britannique Charles Babbage conçoit, avec sa « machine analytique », l’ancêtre mécanique des ordinateurs modernes[20] en associant les inventions de Pascal et de Jacquard : à savoir, d’une part, la machine à calculer, d’autre part, les programmes des métiers à tisser inscrits sur des cartes perforées. C’est sur cette machine, qu’à 27 ans, Ada Lovelace écrit en 1842 le premier véritable programme informatique[21], selon le calcul des nombres de Bernoulli, allant au-delà du simple calcul numérique. Celle que son père Lord Byron appelait, enfant, la princesse des parallélogrammes avait choisi, par passion pour les mathématiques, et dès ses 17 ans, de s’associer aux recherches de Babbage, dont elle travaillera à la promotion jusqu’à sa mort prématurée en 1852.

En 1870, dans son ouvrage ambitieux en deux volumes De l’Intelligence, Hippolyte Taine propose de traiter les facultés cognitives à travers des lois mathématiques comme on le ferait pour n’importe laquelle des sciences expérimentales, dont la physique. Pour lui, « la perception extérieure est une hallucination vraie » et « tous les problèmes concernant un être quelconque, moral ou physique, seraient au fond des problèmes de mécanique ».

2.  Un thème traditionnel de la science-fiction

Dès 1818, Mary Shelley publie son roman « Frankenstein ou le Prométhée moderne », dans lequel elle imagine un savant capable de créer un être artificiel, le monstre Frankenstein. Jules Verne, dans son roman, La Maison à vapeur, paru en 1880, imagine un éléphant à vapeur géant capable de traverser l’Inde, sur terre, comme sur l’eau. Sa machine n’est cependant pas autonome.

Alors qu’Isaac Asimov affirmait que l’« on peut définir la science-fiction comme la branche de la littérature qui se soucie des réponses de l’être humain aux progrès de la science et de la technologie », force est de constater que l’intelligence artificielle est un thème de science-fiction particulièrement fécond pour la littérature, le cinéma et les jeux vidéo.

Dans le célèbre roman Erewhon de Samuel Butler, paru en 1872, en particulier dans les trois chapitres qui forment The Book of the Machines, les machines sont douées d’une intelligence comparable à celle des êtres humains et risquent de nous dépasser. Quelques années plus tôt, sous le pseudonyme de Cellarius, dans un article publié le 13 juin 1863 dans le journal néo-zélandais The Press et intitulé « Darwin among the Machines », il jugeait inéluctable qu’à long terme « les machines détiendront la réelle suprématie sur le monde et ses habitants, c’est ce qu’aucune personne d’un esprit vraiment philosophique ne peut un instant remettre en question »[22]. Il concluait en appelant à la destruction de toutes les machines dans cette guerre à mort.

En 1920, le terme « robot » apparaît avec la pièce de théâtre de science‑fiction de Karel Čapek « R. U. R. Rossum’s Universal Robots », ce néologisme ayant été créé par son frère Josef à partir du mot tchèque robota qui signifie travail. Arthur C. Clarke met l’ordinateur CARL au centre de l’intrigue de ses romans La Sentinelle, en 1951, À l’aube de l’histoire, en 1953, et 2001, L’Odyssée de l’espace, en 1968.

L’un des pères fondateurs de l’IA, Marvin Minsky en l’occurrence, servit d’ailleurs de conseiller à Stanley Kubrick et à Arthur C. Clarke pour l’adaptation de ces romans au cinéma, avec l’une des premières apparitions de l’IA dans la culture populaire : l’ordinateur CARL rebaptisé HAL 9000, dans le film 2001 : l’Odyssée de l’espace, sorti en 1968. Dans ce film, la communication avec l’ordinateur passe par une interface de synthèse vocale qui permet d’interagir avec le système par le langage naturel. Son nom correspond à un rétrodécalage de chacune des lettres d’IBM et l’acronyme signifie Heuristically programmed ALgorithmic Computer, dont on serait à la version 9000.

Les nombreux ouvrages devenus des classiques d’Isaac Asimov et d’Arthur C. Clarke, mais aussi de Philip K. Dick, de William Gibson, de Frank Herbert, de Francis Rayer ou de Iain Banks, illustrent cet intérêt marqué de la science-fiction pour le thème de l’IA, intérêt qui se poursuit aujourd’hui comme en témoignent les romans de Becky Chambers ou d’Alain Damasio[23].

L’intelligence artificielle est aussi omniprésente au cinéma, et ce depuis 1927, avec de nombreux films, comme par exemple, chronologiquement : « Metropolis », « 2001 : l’Odyssée de l’espace », « Le Cerveau d’acier », « THX 1138 », « Mondwest », « Les Femmes de Stepford », « Les Rescapés du futur », « Génération Proteus », « Star Wars », « Blade runner », « Alien », « Tron », « Wargames », « Terminator », « Virtuosity », « Matrix », « L’Homme bicentenaire », « A.I. », « I, Robot », « Iron Man », « WallE », « Eva », « The Machine », « Transcendance », « Chappie », « Her », « Ex Machina », « Ghost in the Shell », « Interstellar », ou, encore, « Ready Player One ».

Des séries télévisées comme « Lost in Space », « Star Trek : La Nouvelle Génération », « Battlestar Galactica », « K 2000 », « Person of interest », « Emma », « Westworld », « Silicon Valley », « Better than us », « Star Wars : The Clone Wars » ou, surtout, « Black Mirror », « Real Humans » et « Humans » ont également exploité ce sujet.

Les thèmes de l’hostilité de l’intelligence artificielle ou des risques que cette dernière ferait courir à l’espèce humaine sont souvent au cœur de l’intrigue de ces œuvres. Des chercheurs de l’Université de Cambridge ont quant à eux identifié, en 2019, sur le fondement de l’étude de 300 œuvres, quatre thèmes principaux dans les fictions représentant l’IA : l’immortalité, l’espoir d’une vie libérée du travail, la satisfaction de nos désirs et, surtout, la soif de domination[24]. Leur analyse conclut sur l’idée que toutes ces perceptions des possibilités ouvertes par l’IA, qui peuvent être assez éloignées de la réalité des technologies, peuvent toutefois influencer la façon dont elles sont développées, déployées et réglementées.

B.  Les avancées depuis un siècle : du baptême de 1956 à la confirmation de 2017

1.  L’école d’été de Dartmouth de 1956, le moment fondateur de la définition de l’IA

L’intelligence artificielle a fêté cet été son soixante-huitième anniversaire, puisqu’elle est inventée en tant que concept et discipline en 1956 à l’occasion d’une école d’été qui a rassemblé les pères fondateurs de la discipline pendant huit semaines.

Le concept a fait l’objet de longs débats et il est dit a posteriori que le choix du mot doit beaucoup à la quête de visibilité de ce nouveau champ de recherche. Parler d’intelligence artificielle a pu apparaître comme plus séduisant que de parler d’informatique avancée ou des sciences et technologies du traitement automatisé de l’information. L’anthropomorphisme essentialiste[25] qui est exprimé par le choix du concept d’« intelligence artificielle » n’a sans doute pas contribué à apaiser les peurs suscitées par le projet prométhéen de construction d’une machine rivalisant avec l’intelligence humaine, même si ce n’était pas le projet en 1956 de cette discipline, dont l’ambition plus modeste était de simuler tel ou tel aspect de nos fonctions cognitives dites « intelligentes ».

Avant cet événement qui lui donna son nom, l’intelligence artificielle avait déjà été imaginée par les pères fondateurs de l’informatique moderne.

Dès 1936, Alan Turing pose ainsi les fondements théoriques de l’informatique et introduit les concepts de programme et de programmation. Il imagine en effet, à ce moment, un modèle de fonctionnement pour un appareil doté d’une capacité élargie de calcul et de mémoire, en recourant à l’image d’un ruban infini muni d’une tête de lecture/écriture. Un tel appareil sera appelé « machine de Turing », précurseur théorique de l’ordinateur moderne.

Puis, après avoir décrypté à Bletchley Park en 1942 le code nazi Enigma[26], dans un article paru en 1950[27], Alan Turing explore le problème de l’intelligence artificielle et propose une expérience dénommée « the imitation game », maintenant connue sous le nom de « test de Turing », qui est une tentative de définition, à travers une épreuve, d’un critère permettant de qualifier une machine d’« intelligente »[28]. Il fait alors le pari que les machines vont réussir son test à moyen terme : « d’ici à cinquante ans, il n’y aura plus moyen de distinguer les réponses données par un homme ou un ordinateur, et ce sur n’importe quel sujet ». Cette prophétie d’Alan Turing quant aux progrès connus en l’an 2000 est en cours de réalisation aujourd’hui avec les IA génératives, certes avec 25 ans de retard mais c’est en réalité très peu au regard du rythme global du progrès technique.

C’est au milieu du XXe siècle, en 1955, en même temps que l’informatique se développe, qu’apparaît formellement une première fois la notion d’« intelligence artificielle » avec une définition peu connue proposée alors par John McCarthy, à ce moment jeune professeur assistant de mathématiques au Collège de Dartmouth. Il propose d’en faire :

« la science et l’ingénierie de la fabrication de machines intelligentes ».

On notera le caractère double de l’IA dès cette première définition : discipline scientifique et savoir-faire pratique pour assurer la production de produits. Mais, surtout, le problème de cette définition est qu’elle est récursive, elle tourne sur elle-même : l’intelligence artificielle est définie par la science et la fabrication de « machines intelligentes », dont la présence permettrait d’identifier l’intelligence artificielle. Elle n’est donc pas satisfaisante. Une autre définition de l’IA sera donnée un an plus tard, à l’occasion d’une école d’été qu’il organise et qui est intitulée « The Dartmouth Research Project on Artificial Intelligence ».

Lors d’une conférence au Collège de Dartmouth à l’été 1956, l’intelligence artificielle est en effet définie et actée comme un champ de recherche au sein de l’informatique.

Cette école d’été de huit semaines, organisée par John McCarthy et Marvin Minsky, mais surtout soutenue par la fondation Rockefeller, par Nathan Rochester, alors directeur scientifique d’IBM, et par Claude Shannon, ingénieur, mathématicien, chercheur aux laboratoires Bell et père des théories de l’information et de la communication, offre d’abord à John McCarthy l’occasion de convaincre la vingtaine de chercheurs y participant d’accepter l’expression « intelligence artificielle » en tant que nouveau nom pour ce domaine de recherche. La conférence pose donc les bases axiomatiques de l’IA dès 1956 avec l’idée que « la discipline se fonde sur l’hypothèse que chaque aspect de l’apprentissage ou toute autre caractéristique de l’intelligence peut en principe être décrit avec une telle précision qu’une machine peut être conçue pour le simuler ».

La rigueur pousse à observer que le projet n’est pas, en réalité, de construire une machine rivalisant avec l’homme mais de simuler telle ou telle tâche que l’on réserve habituellement à l’intelligence humaine. Il est alors affirmé que tout aspect de l’intelligence humaine peut être décrit de façon assez précise pour qu’une machine le reproduise en le simulant.

À l’occasion de cette conférence, une nouvelle définition du concept est donnée par Marvin Minsky, qui a l’avantage de ne pas être récursive et de mettre l’accent sur le fait que l’IA reste de l’informatique et sur l’aspect dynamique de ces technologies (« pour l’instant »), même si elle reste floue et peu rigoureuse :

« Construction de programmes informatiques capables d’accomplir des tâches qui sont, pour l’instant, accomplies de façon plus satisfaisante par des êtres humains ».

Le projet d’école d’été de Dartmouth et quelques-uns de ses participants

Source : https://akin-agunbiade.medium.com/the-first-wave-of-ai-1956-1973-f10860a807f9

Cette idée directrice a contribué à définir les travaux en intelligence artificielle qui ont suivi. Toutefois, lors de son audition devant vos rapporteurs, Jean‑Gabriel Ganascia, professeur émérite à Sorbonne-Université et président du comité d’éthique du CNRS a souligné qu’il ne s’agit là que de la définition scientifique de l’IA, en tant que domaine de recherche mais que le terme « intelligence artificielle » peut également avoir une définition technologique et une conception populaire, qui substantialise l’IA et prête un esprit aux machines. Outre la définition initiale de Marvin Minsky de 1955 – qui parlait de la construction de programmes informatiques capables d’accomplir des tâches du niveau de l’intelligence humaine – une des définitions technologiques les plus consacrées est élaborée par Peter Norvig et Stuart Russell dans le manuel de référence de la discipline depuis une trentaine d’années[29] : « Agents qui perçoivent depuis leur environnement et exécutent des actions en conséquence ». On retrouve la dualité évoquée en 1955 dans la première définition oubliée de l’IA proposée par John McCarthy : à la fois une science ET une ingénierie de la fabrication de machines.

Cette définition technologique, même si elle paraît vague, permet d’englober l’ensemble des systèmes d’IA, du robot conversationnel Eliza à l’IA d’IBM Watson ou encore les systèmes d’intelligence artificielle générative actuels comme ChatGPT.

En effet, les robots conversationnels reçoivent, du côté des perceptions, des intrants sous la forme des instructions de l’utilisateur, et génèrent des textes, du côté des actions, en réponse à ces invites.

L’OCDE donne de l’IA une définition assez proche puisqu’elle affirme qu’un système d’IA est un « système qui fonctionne grâce à une machine et est capable d’influencer son environnement en produisant des résultats (tels que des prédictions, des recommandations ou des décisions) pour répondre à un ensemble donné d’objectifs. Il utilise les données et les intrants générés par la machine et/ou apportés par l’homme afin de (i) percevoir des environnements réels et/ou virtuels ; (ii) produire une représentation abstraite de ces perceptions sous forme de modèles issus d’une analyse automatisée (ex. l’apprentissage automatisé) ou manuelle ; et (iii) utiliser les déductions du modèle pour formuler différentes options de résultats. Les systèmes d’IA sont conçus pour fonctionner de façon plus ou moins autonome »[30]. L’Union européenne reprend le cadre proposé par l’OCDE. Enfin, il existe une conception populaire de l’IA, la plus problématique, qui n’est pas scientifique et correspond malheureusement au sens commun de ce que l’opinion va intuitivement considérer comme étant l’intelligence artificielle. Cette définition, floue et nourrie par la science-fiction, substantialise l’IA dans un biais anthropomorphique et lui rattache des concepts comme l’IA générale, la singularité technologique ou la perspective de robots qui nous dépassent, le risque de prise de pouvoir par les machines, la volonté de dominer l’homme.

Cette définition, plus proche de la magie que de la technologie, prête à l’IA une conscience, lui associe une sorte d’esprit que pourrait avoir la machine. Bien qu’elle n’ait rien de scientifique, cette définition, puisqu’elle est populaire, est vectrice de représentations et de récits catastrophistes qui sont instrumentalisés par certains acteurs souhaitant véhiculer l’idée selon laquelle les IA constitueraient un danger pour l’humanité. En réalité, on l’a vu avec les deux définitions précédentes plus objectives, cette vision mystifiée est erronée. Vos rapporteurs renvoient à la lecture du rapport de l’OPECST de 2017 sur l’IA qui abordait déjà cette question et apportait des pistes pour la démystification de l’IA et de ces représentations.

2.  Printemps et Hivers de l’IA

Outre John McCarthy et Marvin Minsky, les participants à l’école d’été de Dartmouth de 1956, tels que Ray Solomonoff, Oliver Selfridge, Trenchard More, Arthur Samuel, Allen Newell et Herbert Simon, ayant posé comme conjecture que « tout aspect de l’intelligence humaine peut être décrit de façon assez précise pour qu’une machine le reproduise en le simulant », discutent ensuite des possibilités de créer des programmes d’ordinateur qui se comportent intelligemment, c’est-à-dire qui résolvent des problèmes dont on ne connaît pas de solution algorithmique simple.

Tel est le programme que se donnent ces chercheurs américains et qui va recevoir le soutien décisif des autorités fédérales américaines.

Dans les années suivantes, les chercheurs mettent ainsi au point de nouvelles techniques informatiques généreusement financées par l’agence américaine pour les projets de recherche avancée de défense du ministère de la défense (Defense Advanced Research Projects Agency ou DARPA), mais aussi par IBM :

le langage de programmation Lisp en 1958, l’un des plus anciens langages de programmation[31], premier programme à mobiliser des symboles plutôt que des nombres et qui a fait émerger la notion d’heuristique (méthode permettant de donner rapidement des solutions satisfaisantes à un problème d’optimisation complexe, sans aboutir nécessairement à des solutions optimales) ;

- une première concrétisation des réseaux de neurones artificiels, sous la forme du Perceptron, dont Marvin Minsky souligne dès son invention les limites théoriques ;

- un programme qui joue aux dames et met en œuvre un apprentissage lui permettant de jouer de mieux en mieux…

Toutes ces découvertes rendent alors les pères fondateurs de l’intelligence artificielle très optimistes, peut-être trop.

En 1958, Herbert Simon et Allen Newell déclarent ainsi que « d’ici à dix ans un ordinateur sera le champion du monde des échecs » et même que « d’ici à dix ans, un ordinateur découvrira et résoudra un nouveau théorème mathématique majeur » : il faudra, en réalité, attendre 1997 pour que le champion d’échecs Garry Kasparov s’incline devant le système Deep Blue d’IBM et 2023 pour qu’un modèle d’IA parvienne à résoudre un problème mathématique jusqu’alors non résolu par l’homme[32].

La représentation des connaissances et le langage objet sont au cœur de l’intelligence artificielle des années 1960. Dès 1960, deux chercheurs norvégiens Ole-Johan Dahl et Kristen Nygaard inventent le premier langage orienté objet, appelé SIMULA. Ces approches seront ensuite mis au service de l’informatique dans les années 1970, avec des résultats remarquables permettant les progrès connus vers les ordinateurs modernes.

En 1960, Joseph Carl Robnett Licklider – qui, à travers Arpanet dans les années 1970, fondera les bases d’Internet – rédige un article sur le rapprochement homme-machine (qu’il nomme « Man-Computer Symbiosis ») et souligne le besoin d’interactions simplifiées entre les ordinateurs et leurs utilisateurs. Il y taille en pièces l’idée d’une IA concurrençant ou a fortiori remplaçant l’homme : « les hommes fixeront les buts, formuleront des hypothèses, détermineront des critères et exécuteront les évaluations. Les ordinateurs feront le travail que l’on peut mettre en routine qui doit être fait pour préparer les idées et les décisions liées à la pensée technique et scientifique »[33].

En 1965, Herbert Simon assure de manière très optimiste que « des machines seront capables, d’ici à vingt ans, de faire tout travail que l’homme peut faire ». En 1967, Marvin Minsky estime que « dans une génération [...] le problème de la création d’une intelligence artificielle sera en grande partie résolu » et en 1970 que « dans trois à huit ans nous aurons une machine avec l’intelligence générale d’un être humain ordinaire ».

De même, le premier agent conversationnel (« chatbot » ou « bot ») est créé en 1966 par Joseph Weizenbaum et simule un psychothérapeute grâce à sa technologie de reconnaissance des formes. Il s’appelle « Eliza » et suscite un grand enthousiasme.

Mais ses capacités restent limitées, puisqu’il est incapable de vraiment répondre aux questions posées, se contentant de continuer à faire parler son interlocuteur, dans une logique de relance. Tel un psychanalyste, il a surtout tendance à reformuler le plus souvent les propos de l’utilisateur sous un format interrogatif.

Une conversation avec Eliza, chatbot créé en 1966

Source : Norbert Landsteiner https: //fr.slideshare.net/ashir233/eliza-4615

« L’âge d’or » des approches symboliques et des raisonnements logiques se produit dans les années 1960 après la naissance de l’intelligence artificielle à Dartmouth. Recourant à des connaissances précises, telles que des logiques diverses ou des grammaires, ces formes d’intelligence sont dites explicites.

Apparaissent ensuite, les diverses modalités de formalisme logique, soit sous la forme de logique classique, de logique floue, de logique modale ou de logique non monotone.

L’IA symbolique pose alors que la logique mathématique peut en effet représenter des connaissances[34] et modéliser des raisonnements. Le principe de résolution permet d’automatiser ces raisonnements : pour démontrer une propriété, on montre que son contraire entraîne une contradiction avec ce qu’on sait déjà. La seule règle utilisée est celle du « détachement » ou modus ponens, figure du raisonnement logique concernant l’implication (exemple : « si p implique q et si p, alors q »). Cette méthode ne s’applique qu’à des cas simples, où la combinatoire n’est pas excessive. Fondé sur le même principe, le langage Prolog (acronyme de PROgrammation LOGique, qui permet de résoudre les problèmes par raisonnement à partir de règles de logique formelle) lève ces restrictions en permettant d’aborder des problèmes plus complexes.

Des difficultés subsistent pour traiter des connaissances vagues ou incomplètes. Devant ces limites, des extensions théoriques ont donné lieu à des logiques non classiques permettant d’exprimer plus d’éléments que dans la logique classique. Voulant étendre les possibilités de la logique classique, les logiques multivaluées gardent les mêmes concepts de base, hormis les valeurs de vérité, qui, selon les théories, varient de trois à un nombre infini de valeurs. La théorie des logiques floues étend ces logiques en considérant comme valeurs de vérité le sous-ensemble réel « [0,1] ». Elles permettent de traiter des informations incertaines (Jean viendra peut-être demain) ou imprécises (Anne et Brigitte ont à peu près le même âge).

Les logiques modales introduisent des notions comme la possibilité, la nécessité, l’impossibilité ou la contingence qui modulent les formules de la logique classique. La notion de vérité devient relative à un instant donné ou à un individu. On distingue ainsi ce qui est accidentellement vrai (contingence : Strasbourg est en France) de ce qui ne peut pas être faux (nécessité : un quadrilatère a quatre côtés). Diverses interprétations des modalités donnent lieu à des applications distinctes, dont les plus importantes sont les logiques épistémiques (savoirs, croyances), déontiques (modélisant le droit) et temporelles (passé, présent, futur).

Les connaissances n’étant pas universelles, on peut être conduit à des hypothèses et suppositions fausses, remises en cause à la lumière d’expériences ultérieures. Les logiques non monotones tiennent compte du fait que les exceptions sont exceptionnelles et formalisent les raisonnements où l’on adopte des hypothèses (tous les oiseaux volent) qui pourront être modifiées par des connaissances plus précises (mais pas les autruches).

On raisonne avec des règles du type : si a est vrai et si b n’est pas incohérent avec ce qu’on sait, on peut déduire c (si Titi est un oiseau et si j’ignore que c’est une autruche, il vole). On autorise ainsi la prise de décision malgré une information incomplète : des suppositions plausibles permettent certaines déductions ; si, à la lumière d’informations ultérieures, ces suppositions se révèlent fausses, on remettra en question les déductions précédentes (non‑monotonie).

S’agissant des grammaires, le traitement automatique des langues est un des grands domaines de l’intelligence artificielle, qui vise l’application de ses techniques aux langues humaines. Très pluridisciplinaire, il collabore avec la linguistique, la logique, la psychologie et l’anthropologie. Les travaux en traitement automatique des langues ont donné lieu à la constitution de divers ensembles de données numériques (dictionnaires de langue, de traduction, de noms propres, de conjugaison, de synonymes ; grammaires sous diverses formes ; données sémantiques), ainsi qu’à divers logiciels (analyseurs et générateurs morphologiques ou syntaxiques, gestionnaires de dialogue…). Du point de vue conceptuel, ces travaux ont produit des théories grammaticales plus compatibles avec les questions d’informatisation, des théories formelles pour la représentation du sens des mots, des phrases, des textes et des dialogues, ainsi que des techniques informatiques spécifiques pour le traitement de ces éléments par un ordinateur.

De grands espoirs sont alors placés dans la compréhension du langage naturel, dans la vision artificielle, mais en fin de compte les résultats sont décevants, largement en raison des limitations de puissance du matériel disponible, des données à utiliser mais aussi des limites intrinsèques des technologies alors disponibles.

Ainsi, le Perceptron, dans lequel Frank Rosenblatt plaçait tant d’espérances, est rapidement critiqué. Le livre Perceptrons de Marvin Minsky et Seymour Papert, paru en 1969, démontre les limites théoriques des réseaux de neurones artificiels de l’époque[35] alors qu’aucune application industrielle du perceptron n’émerge. Cette technologie sera analysée plus loin.

Après cet âge d’or, qui court de 1956 au début des années 1970, les financements sont revus à la baisse en raison de différents rapports assez critiques : les prédictions exagérément optimistes des débuts ne se réalisent pas et les techniques ne fonctionnent que dans des cas simples. À l’évidence, les difficultés fondamentales de l’intelligence artificielle furent alors largement sousestimées, en particulier la question de savoir comment donner des connaissances de sens commun à une machine. Les recherches se recentrent alors sur la programmation logique, les formalismes de représentation des connaissances et sur les processus qui les utilisent au mieux.

En dépit de cette réorientation, qui témoigne d’une certaine cyclicité des investissements en intelligence artificielle selon une boucle « espoirs-déceptions », Marvin Minsky et ses équipes du MIT (Massachusetts Institute of Technology) développent divers systèmes (Sir, Baseball, Student...) qui relancent les recherches sur la compréhension automatique des langues.

Au cours des années 1980, de nouveaux financements publics sont ouverts avec le projet japonais dit de « cinquième génération », le programme britannique Alvey, le programme européen Esprit et, surtout, le soutien renouvelé de la DARPA aux États-Unis. Les approches sémantiques sont alors en plein essor, en lien avec les sciences cognitives, ainsi que la représentation des connaissances, les systèmes experts et l’ingénierie des connaissances. Leurs usages dans le monde économique sont des signes de cette vitalité.

Après ce court regain d’intérêt, la recherche subit à nouveau un déclin des investissements. Les succès de cette approche restent en effet très relatifs car celle-ci ne fonctionne bien que dans des domaines trop restreints et trop spécialisés. L’incapacité de l’étendre à des problèmes plus vastes conduit à un désintérêt pour l’intelligence artificielle.

L’enthousiasme renouvelé dans les années 1980 autour des systèmes experts, de leurs usages et de l’ingénierie des connaissances précède donc un second « hiver de l’intelligence artificielle » dans les années 1990.

Pour autant, des découvertes scientifiques sont réalisées dans la période. Après la renaissance de l’intérêt pour les réseaux de neurones artificiels avec de nouveaux modèles théoriques de calculs, les années 1990 voient se développer les algorithmes et la programmation génétique ainsi que les systèmes multiagents ou l’intelligence artificielle distribuée. La nécessité de métaconnaissances[36] émerge également.

En 1997, le système Deep Blue d’IBM bat le champion du monde d’échecs de l’époque, Garry Kasparov, qui était sorti victorieux lorsqu’il l’affronta une première fois en 1996. Ce superordinateur d’architecture massivement parallèle était capable d’évaluer au moins 200 millions de positions par seconde grâce à sa puissance de 11,4 gigaflops (soit 11 milliards d’opérations par seconde).

3.  Les années 2010 : une décennie d’innovations et de progrès spectaculaires

Après Deep Blue en 1997, il faut attendre 2011 pour que les IA d’IBM refassent parler d’elles. Le système Watson participe ainsi au jeu télévisé américain Jeopardy – où il s’agit de trouver les questions correspondant à des réponses – qu’il remporte en face des plus grands champions du jeu et gagne un million de dollars. La puissance de calcul atteinte par Watson est alors de 80 téraflops, soit 80 000 milliards d’opérations par seconde. Il s’appuie sur 200 millions de pages de contenus qu’il mobilise en moins de trois secondes. On estime alors que Watson est le premier système à se rapprocher de l’objectif fixé par le test de Turing. Un an plus tard IBM commercialise Watson en solutions logicielles d’analyse pour les entreprises (business analytics). Les secteurs médicaux, financiers ou encore juridiques ont été des clients notables.

Entretemps, le secteur du numérique avait été bouleversé par la massification des usages d’Internet, à commencer par le Web. Ces évolutions ont posé un nouveau cadre favorisant le développement des technologies d’intelligence artificielle, avec une explosion des données mises en ligne, de nouvelles capacités de financement, des intérêts économiques puissants et une interconnexion des chercheurs, des développeurs et des entreprises. Si l’IA avance rapidement dans les années 2010, c’est assez largement grâce à ce contexte nouveau dessiné dans les années 2000 qui lui a permis de se développer de manière inédite.

En matière technologique, les années 2010 ont représenté la décennie du Machine Learning et du Deep Learning avec de nombreuses avancées assez spectaculaires. Ces innovations naissent quasiment par sérendipité à l’occasion d’un concours de reconnaissance d’images par ordinateur. C’est l’occasion de mobiliser les algorithmes déjà disponibles mais surtout de bénéficier d’un corpus de données de taille inédite.

Alors qu’acquérir des capacités satisfaisantes en reconnaissance visuelle avait toujours constitué une difficulté pour les IA, des progrès inédits sont alors enregistrés, représentant une avancée dans la résolution du paradoxe de Moravec, bien connu des spécialistes de l’IA. En effet, ce paradoxe, formulé par Hans Moravec dans les années 1980, montre que nos capacités de perception et de motricité nous semblent plutôt faciles et intuitives (comme la marche ou la reconnaissance d’objets) mais sont très difficiles à reproduire sous la forme d’intelligences artificielles tandis que des tâches cognitives de haut niveau (comme des calculs mathématiques complexes) sont très faciles pour elles.

La chercheuse Fei-Fei Li a ainsi commencé à travailler sur l’idée d’un jeu de données d’images annotées en 2006 (contenant par exemple l’information « il y a des chats dans cette image » ou « il n’y a pas de chats dans cette image »). Quatre ans plus tard, c’est sur la base de ce jeu de données (ou dataset) d’environ 1,5 million d’images annotées, appelé ImageNet, qu’a été organisé un concours annuel : ImageNet Large Scale Visual Recognition Challenge (ILSVRC).

Et c’est précisément au cours des années 2010, sous l’effet de cette compétition, que des progrès inédits dans le domaine du traitement des images sont enregistrés. En 2011, les plus faibles taux d’erreur de classification de cette compétition pour la reconnaissance d’images au sein du jeu de données étaient d’environ 25 %. En 2012, l’apprentissage profond permet de faire baisser ce taux à 16 %, et les deux années suivantes il tombe à quelques pour cent.

Les algorithmes basés sur les réseaux de neurones artificiels en couches profondes ont, de loin, triomphé de tous les autres algorithmes. La compétition autour d’ImageNet devient à ce moment une sorte de benchmark de tous les algorithmes développés.

Si l’on disposait bien des algorithmes efficaces, fondés surtout sur des architectures de type réseau de neurones artificiels et d’algorithmes de traitement, ce n’est qu’à ce moment-là, en conjuguant des calculs rapides sur des machines puissantes avec de larges bases de données labellisées, capables d’entraîner des modèles de grande dimension, que les IA connexionnistes sont reconnues comme efficaces. Les trois conditions du succès du Machine Learning étaient enfin remplies.

Ces systèmes, et parmi eux surtout ceux de Deep Learning, ont alors pu, grâce à la conjonction de ces trois facteurs, commencer à s’imposer face à toutes les autres méthodes, d’abord pour reconnaître les images et la voix, puis dans d’autres domaines, comme la traduction, avec des performances jamais obtenues auparavant. Ces systèmes passent alors par de longues étapes d’annotation des données, la labellisation est en effet indispensable dans ce contexte d’un apprentissage qui reste strictement supervisé. Un travail lourd réalisé par des annotateurs est donc nécessaire.

Les assistants personnels basés sur la reconnaissance de la parole, comme Siri (Apple), Alexa (Amazon), Cortana (Microsoft), Bixby (Samsung) ou Google Assistant, sont conçus et se déploient dans ce contexte précis des années 2010.

L’année 2014 est marquée par l’introduction des GAN (Generative Adversarial Networks) sur la base des travaux de Ian Goodfellow, permettant de créer des images réalistes grâce à l’IA.

En octobre 2015, le programme AlphaGo – entraîné à jouer au jeu de go grâce à une architecture élaborée par Google DeepMind couplant alors[37] apprentissage profond, apprentissage par renforcement et méthode de Monte‑Carlo avec un réseau de valeur et un réseau d’objectifs – bat le champion européen Fan Hui par cinq parties à zéro.

En mars 2016, le même programme bat le champion du monde Lee Sedol par quatre parties à une. Cette victoire est une étape capitale car faire jouer une IA au go est un problème plus difficile que les échecs, non seulement car il existe un plus grand nombre de combinaisons possibles, mais surtout parce que la victoire finale et les objectifs intermédiaires sont beaucoup moins clairs, nécessitant des stratégies très complexes, passant notamment par le fait de perdre, voire par le bluff.

Ce dernier trait caractérise le poker, longtemps considéré comme un jeu inaccessible aux machines. Or, en 2017, le programme Libratus développé à l’université Carnegie-Mellon sort vainqueur d’un grand tournoi de poker l’opposant à plusieurs joueurs professionnels. Il repose sur un algorithme probabiliste adaptatif utilisant une variante de la technique de minimisation du regret hypothétique[38]. Par rapport aux dames, aux échecs ou au go, le poker présente en effet la particularité de devoir optimiser la stratégie de jeu sans disposer de données sur les moyens des adversaires, c’est-à-dire sans connaître les mains des autres joueurs.

L’année 2017 est aussi une année charnière car la plupart des pays du monde accélèrent leur engagement dans la course mondiale autour de l’IA et annoncent des stratégies sur l’IA, plus pour promouvoir ces technologies que pour les encadrer.

C’est, enfin, et peut-être surtout, l’année où est inventée l’architecture qui va faire progresser comme jamais les IA génératives et en particulier les grands modèles de langage, ou LLM (de l’anglais Large Language Model) : la technologie Transformer, véritable avancée pour l’intelligence artificielle, sujet au cœur du présent rapport et analysée plus loin. Si selon Laurent Alexandre, entendu par vos rapporteurs, le XXIe siècle ne naît qu’en 2022 avec ChatGPT, la date à retenir serait plutôt celle de l’année d’invention du modèle qui a rendu ChatGPT possible, soit la proposition de l’architecture Transformer en 2017.

C’est pourquoi si 1956 fait figure d’année de baptême de l’intelligence artificielle, 2017 en représente bien l’année de confirmation.

4.  « L’intelligence artificielle n’existe pas » : la question de la « frontière » de l’IA

L’informatique constitue un domaine d’application privilégié des algorithmes. Mais son histoire ne se confond pas avec celle de ces derniers. Il en est de même pour l’histoire de l’intelligence artificielle, bien que ces trois histoires soient liées. Alors que l’informatique traitait traditionnellement de questions résolues par des algorithmes connus, l’intelligence artificielle s’était plutôt intéressée aux problèmes pour lesquels aucun algorithme satisfaisant n’existait encore.

Le paradoxe résultant de cette distinction est le suivant : dès qu’un problème est résolu par une technologie dite d’intelligence artificielle, l’activité correspondante tend à ne plus être considérée comme une preuve d’intelligence de la machine. Les cas les plus connus de résolutions de problèmes d’algèbre ou de capacité à jouer à des jeux (des jeux de dame ou d’échecs par exemple) illustrent ce phénomène. Nick Bostrom explique ainsi que « beaucoup d’intelligence artificielle de pointe a filtré dans des applications générales, sans y être officiellement rattachée car dès que quelque chose devient suffisamment utile et commun, on lui retire l’étiquette d’intelligence artificielle ».

Les progrès en matière d’intelligence artificielle étant tangibles depuis les années 1950, les frontières de l’intelligence artificielle sont donc sans cesse repoussées et ce qui était appelé intelligence artificielle hier n’est donc plus nécessairement considéré comme tel aujourd’hui. Dès l’origine, l’intelligence artificielle est bien une étiquette.

Ce label recouvre en réalité des technologies très diverses, dont il n’est pas possible de retracer toute la richesse et la diversité, le présent rapport se contentant d’en présenter les aspects les plus saillants.

La frontière de l’IA bougeant sans cesse, les algorithmes relevant de l’IA renvoient à des technologies dont les contenus ne sont pas stables dans le temps. C’est pourquoi certains ont recours à la formule « l’intelligence artificielle n’existe pas », qui est notamment utilisée par Luc Julia, le chercheur à l’origine de Siri, l’IA d’Apple.

L’IA se situe à la frontière des progrès de linformatique. Il s’agit, pourrait-on dire, d’une sorte d’informatique avancée. En effet, l’acronyme IA devrait en réalité bien davantage renvoyer à de l’informatique avancée qu’à de l’intelligence artificielle en tant que telle. Un tel concept serait à l’évidence bien moins anxiogène.

Dans l’histoire des progrès de l’IA, 2017 est, par exemple, une année importante car la frontière de l’IA a été encore une fois repoussée. Quelques mois après l’adoption du rapport de l’Office, un article théorisait la nouvelle étape de l’IA, à travers l’architecture algorithmique Transformer marquant un progrès dans l’évolution de l’IA connexionniste.

Cette dernière est à distinguer de l’IA symbolique. Vos rapporteurs ont, en effet, relevé dans leurs investigations que les outils d’intelligence artificielle sont très divers, mais que les diverses formes d’IA relèvent surtout de deux grandes familles : elles vont de formes explicites (systèmes experts et raisonnements logiques au cœur de l’IA symbolique) à des formes plus implicites (IA connexionniste telle que les réseaux de neurones et le Deep Learning).

C.  La summa divisio de l’IA : intelligence artificielle symbolique et intelligence artificielle connexionniste

1.  L’intelligence artificielle symbolique

a)  Principes généraux des IA symboliques

L’intelligence artificielle symbolique constitue, d’un point de vue historique, la première grande famille de technologies d’intelligence artificielle, caractérisée par l’utilisation de symboles et de règles logiques pour résoudre des problèmes au terme de déductions. Elle s’est surtout développée au cours des années 1960, 1970 et 1980.

Si elle existe toujours aujourd’hui, elle est largement éclipsée par les résultats spectaculaires de l’intelligence artificielle connexionniste. L’un des outils les plus importants de l’IA symbolique sont les « systèmes experts », appelés aussi systèmes à base de connaissances. Un système expert est un logiciel qui va extraire des connaissances à partir du savoir des experts humains d’un domaine et vise à reproduire les raisonnements pertinents de ces experts face à des cas particuliers.

Ces systèmes sont composés de trois parties : une base de faits, une base de règles et un moteur d’inférence (si tels faits, alors effectuer telles actions) : grâce aux faits et aux règles fournis en entrées, le modèle va utiliser le moteur d’inférence pour déduire de nouveaux faits et ainsi répondre à une problématique posée. Il s’agit d’un modèle déductif. La connaissance est donc décrite sous la forme générale de règles :

« SI Condition (s) » « ALORS Action (s) »

Ces systèmes analysent une représentation de la situation pour voir quelles règles sont pertinentes, résolvent les éventuels conflits si plusieurs règles s’appliquent et exécutent les actions indiquées en modifiant la situation en conséquence. Ces systèmes sont efficaces dans des domaines restreints mais deviennent difficiles à gérer quand ils doivent manipuler de nombreuses règles ou intervenir dans des domaines complexes, instables ou ouverts.

b)  Quelques illustrations de ces technologies

Un exemple d’intelligence artificielle symbolique appliqué à la médecine est une IA destinée au diagnostic des maladies infectieuses du sang, le système expert MYCIN développé dans les années 1970 par l’université de Stanford[39]. Cette IA spécialisée dans l’analyse de sang aide à identifier des infections bactériennes et propose des traitements.

Il avait pour objectif d’assister les médecins dans leur travail et de connaître des usages concrets. Son corpus de connaissances était constitué d’un ensemble de données médicales tandis que sa base de règles était composée de règles de type « si… et… alors… » ; par exemple de façon simplifiée : « SI le patient a une infection ET l’infection est bactérienne ET la bactérie est un streptocoque ALORS recommander la pénicilline ». Le moteur d’inférences utilisait un raisonnement basé sur cette base de connaissances et de règles et posait des questions au médecin pour l’aider à établir son diagnostic au fur et à mesure des réponses fournies par le médecin. En dépit de ses qualités, ce système expert n’a pas vraiment connu d’applications pratiques.

On comprend donc que l’enjeu de l’invention d’un système d’intelligence artificielle symbolique est de parvenir à trouver des heuristiques de pensées, qui permettent de déduire aussi rapidement que possible à partir d’une base de règles donnée, une et une seule réponse cohérente avec les données fournies.

Dans les années 1980, de nombreux systèmes dérivent de l’IA symbolique : la programmation logique, avec l’exemple du système PROGOL ; les arbres de décision, avec l’exemple connu de l’algorithme ID3 (acronyme de Iterative Dichotomiser 3) ; l’ingénierie des connaissances ou encore les ontologies[40] qui aboutiront dans les années 2000 au « Web sémantique »[41], proposition originale de Tim Berners-Lee, qui avait été en 1990 l’inventeur du World Wide Web (WWW, le Web), des URL, du protocole de communication HTTP et du langage informatique HTML, alors qu’il travaillait à l’organisation européenne pour la recherche nucléaire (Cern).

Les six modèles d’alignement d’IBM (alignment models) ont dominé le marché des modèles de langage, dans les années 1990 et 2000, notamment pour la traduction automatique. Ils reposaient sur des modèles d’IA symbolique, avant l’émergence des LLM modernes basés sur les réseaux de neurones, bien plus efficaces.

Les IA symboliques peuvent être particulièrement utiles pour capitaliser les savoirs au sein d’une organisation. Leurs applications en ingénierie des connaissances sont donc nombreuses. Qu’il s’agisse de systèmes de planification, de graphes, d’ontologies ou de réseaux sémantiques, les IA symboliques permettent de modéliser les connaissances d’une organisation ou d’un domaine spécifique de façon systématique.

c)  Des limites sémiotiques qui les éloignent de l’intelligence

L’expérience de pensée imaginée par John Searle dans un article de la revue Behavioral and Brain Sciences en 1980 et connue sous le nom d’expérience de la « chambre chinoise » a démontré l’incapacité des IA symboliques à comprendre ce qu’elles font, n’assurant qu’une exécution mécanique d’instructions[42].

Le tableau ci-après décrit cette expérience riche d’enseignements quant aux limitations intrinsèques de ces systèmes d’IA.

Pourquoi l’IA symbolique n’est pas intelligente :
l’expérience de la chambre chinoise

John Searle, dans cet article de 1980, montre qu’une personne qui n’a aucune connaissance du chinois, et qui serait enfermée dans une chambre, est parfaitement capable de communiquer par écrit en chinois à la condition que soit mis à sa disposition un manuel contenant l’ensemble des règles permettant de répondre à des phrases écrites en chinois.

Et bien que cette personne n’ait aucune compréhension de la signification des phrases en chinois qu’elle reçoit et qu’elle émet, elle donne l’illusion de comprendre en se contentant de suivre des règles données. Appliquer « bêtement » des règles syntaxiques, comme le font les ordinateurs avec l’IA symbolique, ne suffit donc pas à engendrer une véritable compréhension sémantique.

Searle prend alors ses distances avec l’idée au principe du test de Turing, selon laquelle un programme informatique peut être qualifié d’intelligent s’il est capable de communiquer avec un humain sans que ce dernier ne puisse réaliser qu’il s’agit d’une machine.

Pouvoir faire illusion en reproduisant une langue, sans avoir aucune conscience du contenu communiqué, n’est pas une preuve d’intelligence. La maîtrise du langage n’est pas qu’une manipulation de symboles, c’est aussi l’entendement des concepts, le fait de comprendre le sens de ce qu’on dit, d’avoir conscience du contenu.

Les programmes informatiques sont des systèmes formels dont la structure est syntaxique alors que l’intelligence humaine articule la syntaxe avec des contenus mentaux à caractère sémantique.

L’IA est donc encore très loin de l’esprit humain, seul capable de faire l’expérience subjective de la compréhension du monde des choses, du monde des mots et des relations qui unissent ces deux mondes.

Les IA symboliques sont bien affectées de limites sémiotiques : en effet, on sait depuis au moins le linguiste Ferdinand de Saussure, s’inspirant d’études millénaires en sanscrit ainsi que d’Héraclite[43], qu’un mot est interprété avec un signifiant (le symbole ou la représentation mentale de l’aspect matériel du signe), un signifié (le concept ou la représentation mentale du contenu associé au signe) et son référent, un objet (ou un ensemble d’objets) concret désigné par le signe. Comme l’expliquait Ferdinand de Saussure au début du XXe siècle, le signe linguistique unit non pas tant un nom et une chose (le dénoté), non pas un mot et un objet, mais un concept (la connotation) et une image acoustique (le symbole), le signifié et le signifiant. Le structuralisme donnera à cette approche le nom de « triangle sémiotique ».

Or, l’IA symbolique ne dispose que du signifiant auquel elle associe éventuellement un objet mais elle est incapable de prendre en considération le signifié du mot, les concepts lui restent totalement étrangers, aussi, elle manipule les symboles sans avoir aucune idée de ce qu’ils sont, sans les comprendre pourrait-on dire. L’IA symbolique se heurte donc à trois principaux problèmes : les connaissances, puisqu’il faut être en mesure de décrire le monde pour l’utiliser, l’inférence, puisqu’il faut être capable de recueillir une expertise capable d’extraire des règles, enfin le contrôle, puisque les possibilités, si elles sont trop nombreuses, deviennent impossibles à déterminer.

L’IA connexionniste, avec ses méthodes statistiques qui se rapprochent de la logique inductive, peuvent donner l’impression de se rapprocher davantage de ce que nous appelons communément « compréhension », lorsque nous faisons des raisonnements basés sur l’induction, mais sous une forme purement probabiliste, en restant de simples programmes informatiques basés sur des mathématiques. De simples programmes mais pas des programmes simples comme nous allons le voir.

2.  L’intelligence artificielle connexionniste

a)  Cadre et définition de ces « superstatistiques »
(1)  À l’origine de tous ces systèmes : les classifieurs linéaires

Contrairement à l’intelligence artificielle symbolique, déterministe, l’intelligence artificielle connexionniste ne se base pas sur des règles et de la logique qui seraient codées par le développeur dans des programmes informatiques mais sur des statistiques et de l’analyse probabiliste de données en fonction de variables aléatoires (qui forment des processus dits « stochastiques »).

On parle parfois de ces technologies connexionnistes comme de « superstatistiques », ce qui distingue le Machine Learning (apprentissage automatique) des IA symboliques vues précédemment. Elles sont ainsi qualifiées de par leur capacité à traiter de très grandes quantités de données via des méthodes statistiques complexes. Ce concept de superstatistiques appliqué à l’intelligence artificielle doit être distingué de celui relevant de la physique statistique[44].

L’intelligence artificielle connexionniste est, il est vrai, largement issue d’algorithmes de classement statistique, au premier rang desquels les classifieurs linéaires (pouvant eux-mêmes faire figure de sous-catégorie de l’analyse factorielle discriminante, qui peut d’ailleurs autant être descriptive que prédictive). Ces classifieurs ont pour rôle de classer des « objets », c’est‑à‑dire de les caractériser comme appartenant à des groupes – ou « classes » – déterminés. Un objet est un ensemble de variables numériques (pensons à une plante que l’on décrirait par l’existence ou non d’une tige, la longueur de la tige, la présence ou non d’épines, la présence ou non d’une fleur, le nombre de pétales, un codage pour la couleur des pétales, etc.). Lorsqu’il n’y a que deux classes (par exemple, on cherche à classer des fleurs en « rose » ou « marguerite »), le classifieur linéaire est un instrument très simple : il assigne un poids, un coefficient pondérateur, à chacune des variables de l’objet étudié, fait le produit correspondant puis additionne l’ensemble – il fait une combinaison linéaire des variables, d’où le nom de « classifieur linéaire » ; il applique ensuite à la somme ainsi calculée une « fonction de décision » qui détermine l’appartenance de l’objet à l’une ou l’autre classe ou la probabilité que l’objet appartienne à l’une ou l’autre classe. La plupart des problèmes supposant en fait l’existence de plus de deux classes, on combine plusieurs classifieurs linéaires pour faire de la classification multi-classes, notamment avec les méthodes dites « un-contre-un » et « un-contre-tous ». En tout état de cause, les poids mis en œuvre par un classifieur sont appris à partir d’un jeu de données d’apprentissage étiquetées.

Ces algorithmes reposent sur des fonctions qui convertissent le produit scalaire de vecteurs dans la sortie désirée selon un vecteur de poids appris à partir d’un ensemble d’apprentissage étiqueté. Ils peuvent modéliser des probabilités conditionnelles (« classifieurs génératifs », comme la classification bayésienne naïve, à ne pas confondre avec l’IA générative) ou, en vue d’être plus précis, recourir à une méthode discriminante.

Les « réseaux de neurones artificiels »  synonyme de « réseaux de neurones formels »  sont un des systèmes d’IA connexionnistes les plus utilisés. Lorsque les réseaux sont organisés de manière stratifiée et que les calculs sont réalisés par plusieurs « couches » de neurones fonctionnant en cascade selon plusieurs niveaux de représentations, la sous-catégorie de l’IA que les réseaux de neurones forment prend le nom d’une sous-sous-catégorie appelée « Deep Learning » ou « apprentissage profond ».

(2)  La pierre angulaire théorique : le théorème d’approximation universelle

Bien que ses succès soient en grande partie empiriques, le paradigme connexionniste de l’intelligence artificielle s’est progressivement doté d’un cadre théorique solide permettant de démontrer sa validité scientifique. Cette branche de l’IA se base ainsi sur le théorème d’approximation universelle, prouvant que les réseaux de neurones, à partir d’une seule couche cachée, peuvent approximer n’importe quelle fonction continue à la condition que la fonction d’activation soit non linéaire[45].

Ce théorème a été prouvé, dans un premier temps, par George Cybenko en 1989 pour certains modèles connexionnistes aux fonctions d’activation sigmoïdes[46]. La même année, Kurt Hornik et son équipe ont démontré plus largement que les réseaux de neurones multicouches sont en réalité des approximateurs universels[47]. D’autres chercheurs ont ensuite établi, ces dernières années, que cette propriété d’approximation universelle correspond à une fonction d’activation non polynomiale et ont étendu le théorème à d’autres fonctions et domaines[48]. De ce fait, dès lors que leur architecture permet d’approximer suffisamment bien la fonction recherchée, les réseaux de neurones permettent de réaliser de nombreuses tâches de classification exigeantes.

b)  Les réseaux de neurones artificiels : aux origines de l’apprentissage profond ou Deep Learning
(1)  Les premières théories dans les années 1940

Dès 1943, le neurologue Warren McCulloch et le psychologue logicien Walter Pitts, travaillant tous les deux sur l’action des neurones dans le cerveau humain, mettent au point un modèle de « réseau de neurones » s’inspirant de l’anatomie animale et humaine[49]. Les neurones humains sont à cette époque une découverte relativement récente, le terme n’apparaissant d’ailleurs qu’à la fin du XIXe siècle grâce au développement du microscope optique.

La structure des neurones est déjà connue dans la première moitié du XXe siècle : des cellules nommées « neurones » transmettent une information à travers des axones, qui se lient aux entrées des autres neurones, appelées « dendrites » par le biais d’une connexion nommée « synapse ».

En revanche, la façon dont une telle structure était capable de transporter l’information restait totalement inconnue. C’est dans cette optique que les chercheurs ont d’abord voulu schématiser simplement le fonctionnement des réseaux de neurones humains, sans avoir pour but d’utiliser un tel modèle pour traiter efficacement de l’information, ni a fortiori pour faire progresser l’informatique et inventer l’IA.

Schéma simplifié d’un neurone biologique

Source : Jean-Paul Haton et al., 2023, Intelligences artificielles : de la théorie à la pratique. Modèles, applications et enjeux des IA, Dunod, p. 60

Les deux chercheurs ont alors imaginé la transposition d’une telle configuration dans un mode purement formel, en s’inspirant des portes logiques en mathématiques.

L’idée est donc qu’un « neurone » artificiel ou formel pourrait accueillir des entrées provenant de neurones d’une couche précédente. Ce « neurone » ferait alors, tel un automate, la somme des entrées de la couche précédente, une somme qui serait pondérée par des « poids » (ces poids miment la plasticité synaptique des réseaux biologiques). Cette somme serait alors soumise à une fonction d’activation non linéaire qui, agissant comme un seuil franchi ou non, détermine si le neurone active ou non sa sortie – l’application de cette fonction à la somme des valeurs issues des entrées des couches précédentes permettant ou pas d’atteindre une valeur seuil donnée.

Dans leur article de 1943, McCulloch et Pitts affirment que de tels réseaux pourraient effectuer des calculs logiques. Ainsi, ils conçoivent des « portes logiques », c’est-à-dire des opérateurs dont les entrées et les sorties reposent sur la logique booléenne (seules deux valeurs sont possibles, qu’on représente en général par les couples « vrai / faux » ou « 1 / 0 »).

On est encore loin des réseaux de neurones qui seront utilisés plus tard pour développer l’intelligence artificielle connexionniste telle que nous la connaissons mais les auteurs ouvrent un nouveau champ de travail.

Le schéma suivant présente les fonctions logiques que McCulloch et Pitts ont mises au point grâce à leur schématisation des réseaux de neurones, les triangles y représentant les neurones et les flèches y renvoyant aux connexions synaptiques.

Fonctions logiques selon les réseaux schématiques de neurones
définis par McCulloch et Pitts en 1943

Source : McCulloch et Pitts, « A logical calculus of the ideas immanent in nervous activity », op. cit.

Les travaux de McCulloch et Pitts dans les années 1940 ne sont que théoriques, ils n’ont pas, à l’époque, l’idée de réaliser physiquement de tels réseaux de neurones artificiels, encore moins de les simuler via un programme informatique. Leur objectif est notamment de décrypter le fonctionnement des neurones responsables de la vision chez les humains et les animaux. C’est néanmoins sur la base de ces schémas de neurones formels interconnectés en portes logiques que vont s’appuyer les travaux postérieurs en mathématiques et en informatique pour développer progressivement les réseaux de neurones artificiels.

En 1959, McCulloch et Pitts, aidés de Lettvin et Maturana, se demandent « ce que l’œil d’une grenouille dit à son cerveau » et précisent la transposition imaginée en 1943 avec un modèle simplifié de neurone biologique appelé neurone formel[50]. Ces neurones formels associés en réseau comparent la somme de leurs entrées et, si une valeur seuil est atteinte, répondent en émettant un signal. Ces réseaux reposent donc sur des fonctions de transfert. Et comme dans le cas des réseaux de neurones biologiques, il est imaginé que la force de connexion entre les neurones – l’efficacité de la transmission des signaux d’un neurone à l’autre – peut varier. Pour autant les auteurs ne présentent pas encore un système artificiel capable d’apprendre par l’expérience. C’est un autre chercheur qui va théoriser, sous le nom de « perceptron », les algorithmes d’apprentissage permettant de faire varier la force de connexion entre les neurones artificiels. Avec les perceptrons, le poids synaptique au sein des neurones formels va se trouver modifié et amélioré selon des processus d’apprentissage.

(2)  Les premiers perceptrons

(a)  Les perceptrons monocouches

La première apparition d’un modèle pouvant être considéré comme l’ancêtre des réseaux de neurones artificiels actuels plutôt que comme une simple source d’inspiration théorique est le perceptron monocouche, inventé au laboratoire d’aéronautique de l’université Cornell par le psychologue Frank Rosenblatt en 1957 et ayant conduit à une publication en 1958[51]. Il permet le classement binaire linéaire supervisé d’une population, c’est-à-dire un processus permettant de séparer une population en deux classes, en connaissant déjà la classe d’une partie des individus. On retrouve ici le principe du classifieur linéaire évoqué dans les développements précédents. Ce réseau est capable d’apprentissage : là où les poids synaptiques sont figés dans les réseaux de McCulloch et Pitts, le perceptron, lui, peut faire varier ses poids grâce à une règle d’apprentissage du perceptron, appelée aussi « loi de Widrow-Hoff » ou filtre des moindres carrés moyens (Least Mean Squares ou LMS).

Le perceptron monocouche est composé de plusieurs entrées et d’une seule sortie (booléenne) à laquelle toutes les entrées (booléennes) sont connectées. Il est utilisé pour résoudre des problèmes de classification linéaire, c’est-à-dire des problèmes qui peuvent être résolus en séparant deux classes d’une population par une droite ou un plan, que l’on qualifie spécifiquement d’hyperplan dans le cadre des réseaux de neurones[52].

Prenons l’exemple d’une population dont on connaît la taille et le poids et dont on souhaite classer les individus par genre. Les caractéristiques de la population sont deux variables continues « taille » et « poids » et les deux classes auxquelles les individus peuvent appartenir sont « homme » ou « femme ». On peut représenter les individus par des points situés sur un graphique en deux dimensions qui aurait pour abscisse la taille des individus et pour ordonnée leur poids. Les hommes étant généralement plus grands et massifs que les femmes, le graphique fait apparaître deux groupes de points qui représentent respectivement les hommes et les femmes et sont à peu près séparés l’un de l’autre. L’apprentissage va consister à déterminer la droite qui sépare « le mieux possible » le groupe des points représentant les hommes et celui des points représentant les femmes, pour le jeu de données d’apprentissage choisi (c’est-à-dire un ensemble d’individus dont on connaît la taille et le poids, et dont chacun dispose de son étiquette « homme » ou « femme »). Dès lors on pourra déterminer la classe probable d’un nouvel individu (en l’occurrence son genre) en connaissant son poids et sa taille, selon que le point qui le représente sur le graphique sera placé d’un côté ou de l’autre de la droite séparatrice.

Pour passer du langage géométrique au langage algébrique pertinent pour le perceptron :

Le schéma ci-après illustre un perceptron qui traite trois variables en entrée et dont le résultat Y est soumis à une fonction d’activation, pour transmission éventuelle au perceptron suivant. Le principe est évidemment généralisable à un nombre supérieur de variables.

Schéma d’un perceptron monocouche avec fonction d’activation

Le perceptron dispose donc de la capacité de séparer une population en deux classes dont la « frontière » dépend des poids synaptiques . Toutefois, il manque toujours à ce réseau un système d’apprentissage qui lui permettra de déterminer les poids synaptiques grâce auxquels la population sera séparée de façon optimale. Pour cela, on utilise la loi de Widrow-Hoff.

Le principe consiste à soumettre au perceptron une série d’individus d’entraînement. On détermine l’écart entre le résultat Y calculé par le perceptron pour le premier individu et le résultat Y attendu ; les poids synaptiques sont alors ajustés en fonction de cet écart ; on réitère le processus en soumettant au perceptron successivement tous les individus d’entraînement, jusqu’à ce qu’il n’y en ait plus ou que le nombre d’erreurs du perceptron soit devenu acceptable.

Pour que ce processus d’entraînement fonctionne, il faut fixer ce que l’on appelle un « hyperparamètre », c’est-à-dire un paramètre qui affecte le comportement d’un modèle et qui est choisi par son concepteur pour son entraînement. Dans le cas de la loi de Widrow-Hoff, l’hyperparamètre est un « taux d’apprentissage », qui détermine l’importance de l’ajustement apporté aux poids synaptiques lorsqu’on soumet un individu d’entraînement au perceptron. Une valeur élevée du taux d’apprentissage favorise un apprentissage rapide mais expose à l’apparition d’erreurs plus fréquentes ; au contraire, un taux d’apprentissage faible réduit le risque d’erreur mais ralentit le processus d’apprentissage.

En 1982, le physicien John Hopfield cherche à enrichir les réseaux de neurones artificiels de la rigueur propre aux physiciens et ouvre la voie aux modèles dits à base d’énergie : la dynamique du réseau est à temps discret et asynchrone, ce qui signifie qu’un seul neurone est mis à jour à chaque unité de temps[53]. Ces modèles de réseaux de neurones dits de Hopfield vont rapidement se généraliser et actualiser la grande majorité des nouveaux perceptrons.

Bien que le perceptron constitue une avancée importante dans le développement de l’IA connexionniste, son intérêt reste alors limité : il ne peut effectuer que des séparations linéaires. Ce type de séparation, bien que permettant certaines classifications, ne correspond pas à la majorité des cas réels, où les classes d’une population donnée sont séparées par des fonctions plus complexes qu’une simple fonction linéaire. Par exemple, ces premiers perceptrons ne sont pas capables de résoudre des problèmes non linéaires comme la disjonction exclusive ou fonction « ou exclusif » (appelée aussi XOR, connue en électricité sous la forme du montage va-et-vient et utilisée en cryptographie, à l’instar du « téléphone rouge » entre la Maison-Blanche et le Kremlin dans les années 1970 et 1980).

Pour résoudre des problèmes non linéaires, une seule couche de réseaux de neurones n’est pas suffisante : plusieurs couches de réseaux de neurones vont alors être utilisées. On parle donc de « perceptron multicouche » (multilayer perceptron, ou MLP). Ces perceptrons multicouches ont tout d’abord pris la forme de « réseaux de neurones à propagation avant » ou « réseaux de neurones à action directe » (en anglais feedforward neural networks (FNN).

(b)  Les perceptrons multicouches (MLP) et les réseaux de neurones à propagation avant (FNN)

Dans le livre Perceptrons : une introduction à la géométrie informatique, de Marvin Minsky et Seymour Papert publié en 1969, les deux auteurs estiment qu’imiter le cerveau est trop complexe pour des machines et démontrent l’incapacité des perceptrons monocouches à résoudre des problèmes de classification non linéaires[54]. Ce livre, pessimiste, est accusé d’être à l’origine d’un premier « Hiver » de l’intelligence artificielle.

La sortie de ce livre est en effet corrélée avec une période de relative accalmie dans le développement et le financement de l’intelligence artificielle et par un quasi‑abandon des perceptrons et plus généralement des réseaux de neurones artificiels[55]. Elle n’est pas pour autant la seule raison de ce ralentissement : les limitations des technologies alors disponibles, les données en nombre insuffisant et le manque de puissance de calcul sont les trois facteurs principaux. La recherche autour de l’intelligence artificielle connexionniste a été ranimée dans les années 1980 par les réseaux de Hopfield et surtout par les MLP.

On parle de perceptrons multicouches lorsque le réseau de neurones est composé de perceptrons organisés en plusieurs couches. Lorsque l’information n’y circule que dans un sens, de l’entrée vers la sortie, on a affaire à des « réseaux de neurones à propagation avant » (en anglais feedforward neural network, FNN), pour les distinguer des réseaux de neurones récurrents (RNN), où l’information effectue au moins un cycle dans la structure du réseau (ces réseaux plus complexes seront vus plus loin).

Dans les MLP, chaque couche agit de la même façon qu’un perceptron classique, et les différentes couches sont montées « en série ». La première couche est appelée couche d’entrée. C’est ici que sont introduites les données que l’on veut traiter. La couche d’entrée transforme ces données en données numériques pour qu’elles puissent être traitées par le réseau.

Ensuite, il y a une ou plusieurs couches cachées. Chaque couche est composée de neurones, et chaque neurone a une ou plusieurs entrées et sorties. Ces entrées et ces sorties forment des ensembles fonctionnels qui se comportent chacun comme des perceptrons. Ils associent à une valeur des coefficients (les poids synaptiques) et un biais. Comme pour le perceptron monocouche, chaque entrée reçoit une valeur de la couche précédente. Cette valeur est multipliée par un autre élément appelé « poids synaptique », qui définit la force du lien entre deux neurones. Si un neurone a plusieurs entrées, toutes les valeurs sont additionnées, et on ajoute une autre valeur pour chaque neurone appelé « biais ». De la même façon que pour un perceptron monocouche, cette somme est ensuite passée dans une fonction d’activation, qui décide si la sortie doit être activée ou non. Il existe différentes fonctions d’activation, comme la fonction « marche » ou la fonction « unité de rectification linéaire » dite ReLU. Le résultat de la fonction est la sortie du neurone, et devient une entrée pour la couche suivante.

Enfin, il y a la couche de sortie, qui, de la même façon qu’un perceptron monocouche, transforme les valeurs obtenues en réponse au problème posé. Par exemple, si l’on souhaite savoir s’il s’agit d’un chat ou un chien sur une image, la couche de sortie donne la réponse grâce à un neurone correspondant à la probabilité qu’il y ait un chien sur l’image et un autre neurone correspondant à la probabilité qu’il y ait un chat sur l’image.

Schéma d’un perceptron multicouche

Légende : la couche d’entrée est en rouge, les couches cachées en orange et la couche de sortie en jaune

Ce schéma permet de voir concrètement les trois couches qui composent le modèle. À gauche, on a une couche d’entrée, ici constituée d’un neurone unique mais en fonction du type de données en entrée, on pourrait en avoir plusieurs. Au milieu, on a les couches cachées. Ici il y en a trois, il pourrait y en avoir plus : ce paramètre entre en jeu dans l’élaboration d’un modèle efficace, aussi économique et fiable que possible. Chaque couche n’est pas obligée de contenir le même nombre de neurones : dans l’exemple, les deux premières couches contiennent trois neurones, la troisième en contient cinq. Puisque dans cet exemple tous les neurones d’une couche sont reliés à tous les neurones de la couche suivante, on parle de « réseau dense ». À droite, enfin, on a la couche de sortie, qui contient ici deux neurones mais qui pourrait en contenir plus ou moins en fonction du type de données que l’on veut en sortie.

Tableau non exhaustif de fonctions d’activation couramment utilisées

Nom de la fonction

Équation associée

Représentation graphique

Identité

undefined

Marche

undefined

Sigmoïde

undefined

Unité de rectification linéaire (ReLU)

undefined

Unité de rectification linéaire douce (SoftPlus)

undefined

Sinus cardinal

undefined

Source : Exemples pris parmi la liste des 16 fonctions d’activation usuelles recensées par Wikipédia

Il est possible de prendre l’exemple concret d’un réseau multicouche simple pour expliquer le fonctionnement de ces réseaux de neurones artificiels.

Ce modèle d’illustration est inventé afin de permettre une compréhension plus aisée du concept. Les réseaux de neurones sont, en effet, beaucoup plus grands, et les informations traitées bien plus nombreuses (plusieurs milliards). Le chemin de l’information va de l’entrée du modèle vers sa sortie.

Exemple de schéma d’un réseau de neurones avec des valeurs associées aux synapses (poids, noté w) et aux neurones (biais)

Sur ce schéma sont présentées toutes les informations qui permettent de calculer des valeurs de sorties dans les neurones de la couche de sortie. On dispose d’une valeur d’entrée dans le neurone d’entrée : 0,42. À chaque synapse est associé un poids synaptique noté « w ». Pour chaque couche de neurones cachés, on a une fonction d’activation : sigmoïde pour la première, ReLU pour la seconde. À chaque neurone est associé un biais.

Le calcul pour les deux neurones de la couche cachée peut être détaillé. Pour cela, la valeur initiale est multipliée par le poids synaptique de la synapse qui la relie au neurone dont on veut connaître la valeur, et on y ajoute le biais. On a donc :

et

Ces valeurs passent ensuite dans la couche d’activation afin d’obtenir le poids final de chaque neurone. On calcule donc la valeur de la fonction sigmoïde pour et . On obtient 0,54 pour le premier neurone et 0,41 pour le second neurone. La seconde couche de neurones ayant une valeur, on peut alors calculer grâce à celle-ci la troisième couche comme on l’a fait avec la première. Tous les neurones de la deuxième couche étant reliés à tous les neurones de la troisième couche, le calcul est un peu plus complexe puisqu’il faut additionner les valeurs des entrées avant de les faire passer dans la fonction d’activation.

On a alors :

Ces valeurs peuvent alors passer dans la fonction d’activation ReLU. On obtient donc les poids des trois synapses de la couche suivante : 1,05 ; 0 et 0 (lorsque les nombres sont négatifs, la fonction ReLU renvoie toujours 0).

Enfin, les poids des neurones de la couche de sortie sont calculés :

Le schéma initial du réseau de neurones peut être complété avec toutes les valeurs qui viennent d’être calculées.

Schéma complété des calculs réalisés

On a donc un résultat dans la couche de sortie qui nous permet d’interpréter ce que le modèle a pu discriminer. En réalité, ces calculs ne sont jamais effectués manuellement et un ordinateur peut réaliser tous ces calculs beaucoup plus rapidement qu’un humain pour en tirer des résultats beaucoup plus précis car gardant le plus de chiffres possible après la virgule dans les calculs.

C’est la multiplication des couches de perceptrons qui a conduit à parler d’apprentissage profond ou Deep Learning. Ce type de réseau découle du perceptron monocouche imaginé par Rosenblatt lors de ses travaux. L’idée de mettre des perceptrons en couches successives ne constitue cependant pas l’avancée majeure des MLP par rapport aux perceptrons monocouches. Ces perceptrons multicouches à propagation avant ou FNN présentent en effet un désavantage par rapport à un perceptron monocouche. Bien que les réseaux à plusieurs couches soient capables de traiter des situations de classification non linéaire, avec plusieurs neurones au lieu d’un seul, il n’est plus possible de calculer la façon dont on doit entraîner le réseau pour qu’il produise de meilleurs résultats. Là où l’on utilisait la loi Widrow-Hoff pour le perceptron monocouche, il n’est plus possible de le faire désormais car il y a plusieurs neurones dont les paramètres influencent le résultat final d’une façon différente. Comment alors savoir quel poids synaptique ou quel biais modifier et de quelle façon pour atteindre le résultat optimal voulu ? L’incapacité à répondre à de telles questions est l’une des raisons de « l’Hiver » de l’IA des années 1970. En effet, ces réseaux FNN ne présentent pas d’intérêt s’ils ne sont pas capables de répondre à ces questions puisque leur intérêt était précisément d’être capables « d’apprendre », c’est‑à‑dire d’adapter leurs réponses.

Des scientifiques commencent à répondre à cette difficulté dans les années 1980 en utilisant une technique issue de la résolution des problèmes de fonctions convexes en mathématiques appelée la « descente de gradient ». L’algorithme permettant de trouver un minimum global, c’est‑à‑dire le point où le modèle obtient les meilleurs résultats, va prendre le nom de rétropropagation du gradient, permettant alors d’utiliser les perceptrons multicouches (MLP) de façon optimale et quasi automatisée.

(3)  La rétropropagation du gradient (Back-propagation)

Les méthodes algorithmiques visant à corriger les erreurs des MLP et à les améliorer sont issues du calcul de la descente du gradient et sont appelées algorithmes de rétropropagation du gradient ou de rétropropagation des erreurs. Elles se fondent sur les travaux de Seppo Linnainmaa, qui décrit de tels algorithmes dès son mémoire de maîtrise en 1970 mais sans les appliquer aux réseaux de neurones. Paul Werbos imagine dans sa thèse de doctorat en 1974 de nouveaux outils de prévision qui appliqueraient la rétropropagation du gradient aux réseaux de neurones. Ces premiers travaux ne conduisent pas à des résultats concrets. On considère en effet que le premier perceptron multicouche efficace date de 1986.

Pour régler les perceptrons multicouches, c’est-à-dire minimiser leur taux d’erreur, la descente du gradient doit conduire à ajuster progressivement le poids de tous les neurones au sein du modèle. Un collectif de chercheurs (Hinton, Rumelhart, Williams et McClelland) élabore alors un algorithme de descente du gradient qui va prendre le nom de rétropropagation du gradient[56] : il s’agit de parcourir le réseau de neurones dans le sens inverse de son fonctionnement pour corriger ses erreurs en mettant à jour par cet algorithme les poids des neurones de la dernière couche à la première.

De jeunes chercheurs comme Yann LeCun et Yoshua Bengio, rencontrés par vos rapporteurs, ont alors poursuivi à partir du milieu des années 1980 des recherches sur ces nouvelles architectures[57]. En 2019, Geoffrey Hinton, Yann LeCun et Yoshua Bengio ont reçu le prestigieux prix Turing pour l’ensemble de ces travaux fondateurs pour les architectures modernes des réseaux de neurones profonds (ce prix est l’équivalent pour l’informatique du prix Nobel ou de la médaille Fields, récompense la plus prestigieuse de la discipline mathématique).

Il est intéressant de relever qu’un phénomène biologique similaire à la rétropropagation du gradient a été observé dans les réseaux de neurones des mammifères[58].

Un des intérêts des réseaux de neurones multicouches est que le modèle évolue grâce à un entraînement qui lui permet d’être de plus en plus performant. Celui-ci consiste, en utilisant un jeu de données d’entraînement, à mesurer l’écart entre la réponse fournie par le modèle et la réponse attendue, et à ajuster le modèle pour minimiser cet écart.

S’agissant du premier point, l’écart entre le résultat effectif et le résultat attendu peut se calculer de différentes façons. La plus simple consiste peut se calculer de différentes façons. La façon la plus simple revient à calculer l’« erreur quadratique moyenne » (mean square error, MSE), c’est‑à‑dire la différence entre la donnée de sortie du modèle et la donnée attendue au carré, permettant d’obtenir une « fonction de perte » ou « fonction de coût ». Si l’on prend l’exemple d’un modèle qui doit déterminer si une image est, ou non, celle d’un chat, et que l’on introduit une image de chat dans le modèle puis que celui-ci donne 0,8 en sortie, la perte sera de . En effet, la sortie attendue était 1 (car l’image est bien celle d’un chat).

Pour ce qui concerne le second point, l’ajustement consiste à « surfer » sur la fonction de perte pour descendre vers son minimum, en faisant varier les poids et les biais des neurones. À cette fin, on détermine la façon dont de petites variations de chaque poids ou biais, réalisées séparément, font varier la fonction de perte ; ceci revient, en mathématiques, à calculer les dérivées partielles de la fonction de perte par rapport à chaque poids ou biais. Le vecteur contenant l’ensemble des valeurs de ces dérivées est appelé le gradient.

Pour régler les poids et biais des neurones, on commence à travailler sur la fonction de perte à partir des neurones de la dernière couche. Un algorithme – dit optimiseur – est appliqué au gradient pour le « descendre » en ajustant les poids et les biais dans la direction opposée au gradient. Chaque poids et biais de chaque neurone reçoit une correction qui fait intervenir la dérivée partielle correspondante de la fonction de perte et un taux d’apprentissage. Le choix de l’optimiseur dépend de la nature des données traitées et de la rapidité (souhaitée et possible) de la convergence vers la perte minimale ; il en existe un grand nombre : descente de gradient stochastique (stochastic gradient descent ou SGD), Adagrad, Adadelta, RMSprop, Adam… La rétropropagation proprement dite consiste à réaliser ensuite les mêmes opérations aux neurones de la couche située immédiatement en amont, puis de la précédente, etc. De cette façon, toutes les couches du modèle sont remontées une par une, depuis la couche de sortie jusqu’à la couche d’entrée.

Cette méthode de rétropropagation du gradient a suscité un regain d’intérêt pour les réseaux de neurones sous leur nouvelle forme d’apprentissage profond, et donc pour l’ensemble du paradigme connexionniste. Au-delà du prix Turing décerné en 2019 à trois de ses inventeurs – Geoffrey Hinton, Yann LeCun et Yoshua Bengio[59] – c’est le prix Nobel de physique qui récompense en 2024 Geoffrey Hinton et John Hopfield pour leurs travaux sur les réseaux de neurones artificiels.

(4)  Les réseaux de neurones convolutifs (CNN)

Un réseau de neurones artificiels traite en entrée des données numériques et délivre en sortie d’autres données numériques. Pour mettre en œuvre de tels modèles, il faut donc pouvoir transformer l’information que l’on veut traiter en données numériques, en perdant le moins de sens possible. Dans le cas d’une image en couleur, il s’agit d’identifier les formes, les contrastes, éventuellement les ombres, etc. Les chercheurs ont dû inventer des réseaux permettant de conserver ces informations et de les convertir en données numériques pour qu’elles soient traitées par un réseau, capable de réaliser par exemple des tâches de classification.

Les réseaux convolutifs (convolutional neural networks ou CNN) sont ainsi des réseaux de neurones utilisés pour le traitement des images. Tout comme les travaux sur les perceptrons, ces réseaux de neurones sont influencés par des avancées scientifiques, notamment dans les sciences cognitives. Les travaux de Hubel et Wiesel en 1968 sur les cellules visuelles dans le cerveau des animaux[60], qui leur a valu un prix Nobel de physiologie en 1981, ont inspiré les informaticiens sur la façon dont il était possible de traiter une information visuelle grâce à un réseau de neurones situés dans le « cortex strié » (ou cortex visuel primaire). Hubel et Wiesel ont également découvert qu’il existait deux types de cellules dans ce cortex, une partie de ces neurones ne traitant l’information que d’une partie de l’image perçue par les capteurs visuels.

C’est cette idée qui a inspiré le scientifique japonais Kunihiko Fukushima lors de la création de deux modèles : le cognitron en 1975[61] puis le neocognitron en 1980[62]. Ces réseaux, imitant le fonctionnement du cerveau, ne sont pas encore des réseaux convolutifs mais s’en rapprochent et sont souvent considérés comme les réseaux qui ont permis l’émergence des CNN.

Yann LeCun écrit : « Les cellules simples du Néocognitron sont un bricolage byzantin pour coller au mieux à la biologie et faire en sorte que le réseau fonctionne. […] Peut-être Fukushima veut-il imiter trop étroitement la biologie ? Toujours est-il que le résultat est moyennement heureux. »[63]

L’un des premiers réseaux convolutifs à recevoir un usage pratique s’appelle « LeNet-5 » et est développé notamment par Yann LeCun et Yoshua Bengio dans l’entreprise Bell Labs en 1989[64]. L’objectif du modèle était alors de reconnaître automatiquement les codes postaux manuscrits. Il sera largement utilisé.

Schéma du réseau de convolution LeNet-5

Source : LeCun et al., 1989

LeNet est le premier réseau convolutif à présenter cette architecture toujours utilisée à l’époque actuelle dans les réseaux convolutifs comme les réseaux ResNet[65]. On voit sur le schéma qu’il est constitué d’une succession de couches de « convolution » et de « sous‑échantillonnage » (subsampling). L’objectif est de réaliser un « encodage » de l’image d’entrée, afin d’en extraire les caractéristiques importantes.

Pour obtenir des valeurs numériques à partir d’une image, on attribue des valeurs à chacun de ses pixels. Dans le cas d’une image en niveaux de gris (noir et blanc), chaque pixel a une valeur, qui va de zéro, totalement noir, à un, totalement blanc. Dans le cas d’une image en couleur, chaque pixel est composé d’un vecteur de trois valeurs. En effet, une image en couleur peut être représentée comme une superposition de la même image respectivement en rouge, vert et bleu (on parle de système RVB ou RGB pour red green blue en anglais). Ces couleurs étant les couleurs primaires de la lumière, on peut obtenir l’importe quelle couleur à partir d’un mélange de ces trois couleurs. Par exemple, le jaune étant un mélange de rouge et vert, un pixel jaune sera représenté par le vecteur (1, 1, 0), c’est-à-dire tout à fait rouge et tout à fait vert sans bleu. Les valeurs RGB s’exprimant généralement jusqu’à 255, on normalise ces valeurs dans les modèles pour qu’elles soient contenues entre zéro et un ; les valeurs sont donc divisées par 255.

Dans un CNN, l’objectif est de réduire les dimensions de l’image en gardant ses principales caractéristiques grâce à une opération mathématique appelée la « convolution ». Cette opération permet d’extraire des caractéristiques d’une image en faisant passer une « matrice de convolution » (kernel), qui réalise des opérations sur une zone de l’image, permettant de générer une « carte de caractéristiques » (activation map). On peut voir l’opération de convolution comme un tampon qui passerait au-dessus de chaque groupe de pixels dans une image et qui transformerait la valeur de ces pixels en fonction du tampon choisi.

On réalise cette opération plusieurs fois sur chaque couche d’une image (une couche ne pouvant être composée que d’un canal de couleur rouge, verte ou bleue) en changeant la matrice de convolution pour obtenir une série de cartes de caractéristiques de mêmes dimensions que l’image originale. Pour que le processus ne soit pas linéaire, on peut ajouter, après chaque couche de convolution, une fonction d’activation (souvent la fonction sigmoïde ou unité linéaire rectifiée, ReLU), cette fonction va prendre en entrée les cartes de caractéristique obtenues après application d’une convolution. Elle va renvoyer une valeur de sortie selon la fonction choisie[66].

L’objectif étant de réduire les dimensions de l’image, on applique une couche dite de max pooling (en français plus rarement : sous-échantillonnage par valeur maximale). Cette étape consiste à appliquer un filtre d’une taille définie sur une surface (en l’occurrence, sur les cartes de caractéristiques), et ne garder que la valeur maximale de la région définie par le filtre. Ainsi par exemple, un max pooling de 2x2 va parcourir les cartes de caractéristiques avec un filtre de deux pixels par deux, et sélectionner dans ce carré la valeur la plus importante. Cela permet de diviser la dimension des surfaces par deux. C’est ce qui est appelé la phase de sous-échantillonnage (subsampling).

Cette combinaison de convolution et max pooling est répétée sur les cartes de caractéristiques jusqu’à ce que l’on obtienne des dimensions suffisamment réduites. On réalise ensuite un « aplatissement » (flattening) des dimensions obtenues pour les stocker dans un vecteur à une seule dimension. Ce vecteur à une seule dimension est alors présenté à l’entrée d’un réseau dense de neurones, c’est-à-dire un réseau dont l’ensemble des neurones d’une couche sont reliés à l’ensemble des neurones de la couche précédente.

Ce réseau dense, qui fonctionne exactement comme un FNN, avec une couche de sortie construite selon le résultat souhaité.

Pour illustrer le fonctionnement d’un CNN, on peut imaginer utiliser en entrée une image carrée de dimension (soixante-quatre pixels de longueur et de largeur, trois canaux de couleurs) afin de reconnaître un chiffre entre zéro et neuf. Cette image passe ensuite dans une couche de convolution qui va, par exemple, produire trente-deux cartes de caractéristiques en utilisant des matrices de convolution différentes. On se retrouve alors avec une image de dimension (on garde les dimensions d’origine mais on a désormais trente-deux cartes de caractéristiques). On passe alors ces cartes de caractéristique dans une fonction d’activation, par exemple la fonction ReLU, puis le résultat est utilisé dans un max pooling qui va réduire la dimensionnalité de ces cartes. En utilisant un filtre de max pooling de deux pixels par deux, cette couche produit un résultat de dimension (on garde le même nombre de cartes de caractéristiques mais on divise leurs dimensions par deux). On peut alors répéter cette opération jusqu’à obtenir des dimensions de cartes suffisamment réduites, quitte à augmenter le nombre de cartes, par exemple . Les cartes sont ensuite « aplaties », lors de la phase de flattening, pour obtenir un vecteur unidirectionnel contenant  valeurs. Ce vecteur est présenté à un FNN dense qui a dix neurones de sortie, un par chiffre possible de zéro à neuf. Le réseau complet est alors capable d’attribuer un chiffre à chaque image. On peut comparer le résultat obtenu avec le résultat attendu et procéder à une opération de rétropropagation du gradient pour optimiser les résultats.

Les CNN sont utiles pour la reconnaissance d’images, mais ils constituent également la première partie des « auto-encodeurs variationnels », modèles génératifs développés plus loin dans ce rapport. L’architecture U‑Net, par exemple, est un CNN utilisé dans le monde médical pour la segmentation d’images cérébrales ou hépatiques ainsi que dans la création de contenus visuels, notamment par l’application Stable Diffusion.

(5)  Les réseaux de neurones récurrents (RNN)

Dans les FNN, l’information ne circule que dans un sens, de l’entrée vers la sortie, comme il a été vu. De ce fait, chaque valeur d’entrée ne passe qu’une seule fois dans chaque couche de neurones du réseau. Ces réseaux ne peuvent pas traiter une séquence d’informations, c’est-à-dire des données provenant d’une série temporelle cohérente. On parle de données « dynamiques » en opposition aux données « statiques ». Ces données dynamiques englobent les vidéos, les graphiques d’évolution du cours d’actions en bourse, des relevés météorologiques, etc. Pour traiter ce type de données, il faut utiliser une architecture qui permette à des informations de « remonter » les couches du réseau. Les bases théoriques de ces types de réseaux ont été posées en 1972 par le japonais Shun’ichi Amari, on les nomme « réseaux de neurones récurrents » (en anglais recurrent neural networks ou RNN)[67]. John Hopfield a été le premier à concevoir un tel réseau récurrent capable de traiter une information dynamique en 1982[68]. Si l’information effectue au moins un cycle dans la structure du réseau, on a affaire à un RNN et plus à un FNN.

Un RNN ressemble à un réseau à propagation avant : il contient une couche d’entrée, des couches cachées et des couches de sortie. Il a toutefois la particularité de posséder une boucle de rétroaction : lorsqu’on lui présente successivement les données d’une séquence, le résultat obtenu pour une donnée prend en compte les résultats obtenus pour les données précédentes. Par exemple, si l’on utilise un RNN pour réaliser des prévisions météorologiques du lundi au dimanche, alors la boucle va permettre de prendre en compte le temps de lundi pour prédire le temps de mardi, le temps de lundi et mardi pour prédire celui de mercredi, etc.

On peut représenter un tel réseau de deux façons :

- selon un schéma « plié » du réseau, qui montre son fonctionnement de façon synthétique. Pour chaque entrée , le réseau renvoie une sortie ainsi qu’un certain nombre de paramètres qui vont être utilisés dans la couche cachée qui va traiter l’entrée et donc avoir une influence sur la sortie  ;

- selon une version « dépliée » du schéma, qui montre plus clairement l’influence du traitement de chaque entrée sur le traitement de l’entrée suivante. Pour parler de la phase traitée par les couches cachées et influençant les couches cachées à l’état , on utilise le terme « état caché ».

Schéma d’un réseau de neurones récurrent

Ce modèle peut être entraîné de la même façon qu’un réseau de neurones à action directe grâce à la technique de rétropropagation du gradient. Toutefois, le calcul du gradient prend en compte un paramètre supplémentaire : l’information provenant des étapes précédentes de la séquence. La prise en compte de ce nouveau paramètre crée deux problèmes opposés : d’une part, un risque de « disparition du gradient » (en anglais gradient vanishing), situation où le gradient devient très faible et ne modifie quasiment plus les poids et les biais du modèle ; d’autre part, un risque d’« explosion du gradient », situation où, au contraire, le gradient devient très fort et modifie les poids et les biais de façon erratique. Ces problèmes rendent le gradient inopérant à long terme, ce qui empêche les RNN simples de traiter l’information de façon cohérente sur une longue séquence. Pour pallier ces problèmes, l’architecture des RNN a dû être améliorée pour posséder une mémoire à court terme, mais également une mémoire à long terme.

(6)  Les réseaux de neurones à mémoire court et long terme (LSTM)

Les RNN donnent de bons résultats pour une mémoire courte par exemple pour assurer la prédiction du mot de la phrase suivante « La couleur du ciel est ...… » mais pour une phrase plus longue comme « J’ai passé vingt longues années à travailler pour les enfants défavorisés en Espagne. J’ai ensuite déménagé en Afrique. Je parle couramment ……… », les RNN sont en difficulté car l’information se propage dans le réseau puis se perd à cause du problème de la disparition du gradient (vanishing gradient)[69].

Les réseaux de neurones à mémoire court et long terme (en anglais long-short term memory ou LSTM) sont une architecture de RNN qui permet de résoudre les problèmes de disparition et d’explosion du gradient.

Cette architecture, qui est la plus utilisée en pratique, a été inventée en 1997 par Sepp Hochreiter et Jürgen Schmidhuber[70]. L’information passe par trois portes : une porte d’entrée (input gate), une porte de sortie (output gate) et une porte d’oubli (forget gate).

Schéma simplifié d’une cellule de LSTM et de ses trois portes

Source : Omar Imai, op. cit.

Chaque unité computationnelle est liée non seulement à un état caché du réseau mais également à un état de la cellule qui joue le rôle de mémoire. Ainsi, les informations passant dans les cellules LSTM sont traitées selon une forme de mémoire : alors que certaines informations sont gardées à long terme, d’autres sont oubliées et ne passent donc pas au jalon temporel suivant.

Les réseaux RNN complétés de ces cellules LSTM ont notamment débouché sur les architectures Transformer qui sont à la base des Large Language Models et qui seront traitées plus loin.

c)  Les autres systèmes d’apprentissage

D’autres systèmes ont précédé le Deep Learning et peuvent parfois présenter moins d’intérêt mais ils restent pertinents, par exemple dans des cas d’usage où la puissance des réseaux de neurones profonds n’est pas nécessaire.

(1)  Les machines à vecteurs de support (SVM)

Les machines à vecteurs de support (support vector machines ou SVM, parfois traduits en « séparateurs à vaste marge » pour reprendre l’acronyme anglais) sont des moyens de classifier une population en groupes dont les individus sont similaires au regard d’un certain nombre de variables.

Ils correspondent à une généralisation des classifieurs linéaires. Leurs développements en informatique remontent aux années 1990, à la suite des travaux de théorie statistique conduits par Vladimir Vapnik en URSS depuis les années 1960 (menant notamment à la théorie de Vapnik-Chervonenkis, dite VC). Ils reposent ainsi sur les notions de marge maximale[71] et de fonction noyau[72], qui leur préexistaient, mais qu’ils sont les premiers à articuler.

Ces modèles sont efficaces dans le cas de données de grandes dimensions et peuvent donner des résultats équivalents à ceux des réseaux de neurones. Ils nécessitent de posséder un large jeu de données d’entraînement (individus dont on connaît a priori les variables d’intérêt et la classe) ; grâce auquel il devient possible de prédire la classe d’autres individus dont on ne connaît que les variables d’intérêt. Les individus peuvent être représentés comme des points dans un espace qui compte autant de dimensions que le nombre de variables requis pour décrire un individu.

Il s’agit de trouver la frontière séparant la population en deux classes. Deux types de situations se présentent alors : le cas où l’on peut séparer les classes de façon linéaire, c’est-à-dire où l’on peut déterminer un hyperplan dans l’espace tel que tous les individus d’une classe sont situés d’un côté de l’hyperplan et tous les individus de l’autre classe sont situés de l’autre côté ; le cas où l’on ne peut pas le faire et où la détermination de la frontière étant plus délicate, il faut trouver un autre moyen de séparer les classes de la population.

Deux exemples de classement (selon une visualisation géométrique)

Classement linéaire possible

Classement linéaire impossible regroupement dans un cercle

Néanmoins, il existe le plus souvent plusieurs possibilités de séparer une population en deux classes : c’est le cas des deux frontières rouges séparant la population en deux classes dans l’illustration ci-dessous.

Deux frontières possibles pour une même classification

Ces deux frontières semblent aussi performantes l’une que l’autre à l’issue de leurs processus d’apprentissage respectifs : le jeu de données d’apprentissage est correctement séparé en deux classes. Mais il reste à déterminer un moyen d’obtenir la frontière la plus pertinente, une séparation optimale qui permettrait, lorsqu’on ajoute à la population un nouvel individu n’appartenant pas au jeu d’entraînement, de déterminer sa classe avec un niveau de confiance élevé.

La frontière la plus pertinente avec un nouvel individu

Les deux frontières sont aussi performantes l’une que l’autre à l’issue de leurs processus d’apprentissage respectifs, mais leurs performances ne sont pas équivalentes quand on généralise l’usage du modèle avec l’entrée de nouveaux individus. Il reste à optimiser cette frontière.

Pour toute frontière possible, on peut déterminer la distance qui sépare un individu de cette frontière et, par voie de conséquence, quels sont les individus les plus proches de celle-ci. Leur distance à la frontière est appelée « marge ». La frontière optimale sera celle pour laquelle la marge est la plus grande. Une fois ce problème d’optimisation résolu :

- on dispose de la frontière, c’est-à-dire de la règle de classement, qui classera le mieux les individus autres que ceux de l’ensemble d’apprentissage ;

- pour chacune des deux classes, il existe un individu au moins qui est le plus proche de la frontière. Et ces individus sont appelés « vecteurs de support », on peut les voir comme les représentants de leurs classes car si l’échantillon d’apprentissage n’était constitué que par ces vecteurs de support, la frontière optimale que l’on trouverait alors serait identique à la précédente : les vecteurs de support contiennent toute l’information qui détermine la frontière ou règle de classement.

Le frontière optimale correspondant aux vecteurs de support

 

La frontière (ligne rouge continue) classe ici la population de façon optimale : tous les individus de chaque groupe sont répartis de part et d’autre et la marge est maximale (distance entre la frontière et les individus bleu et vert les plus proches, appelés vecteurs de support, marqués par une flèche noire). De chaque côté de la frontière, il existe un hyperplan parallèle à celle‑ci qui passe par le ou les individus de support (lignes rouges pointillées) et la frontière la plus pertinente est située à égale distance de ces deux hyperplans.

Le grand intérêt de la notion de « vecteurs de support » est qu’elle permet de généraliser l’utilisation de machines SVM à des populations qui ne sont pas linéairement séparables. En toute rigueur, aucune frontière n’est capable de séparer complètement et exactement ce type de population entre deux classes déterminées : tout hyperplan de l’espace laissera « du mauvais côté » au moins un individu. Deux approches sont possibles dans cette situation.

On peut d’abord accepter le fait que la règle de classement (ou la frontière) génère quelques erreurs, mais faire en sorte que leur portée reste limitée. On met alors en œuvre la méthode des séparateurs à « marges souples ». Le processus d’optimisation permettant de déterminer la frontière optimale fonctionne alors sous double contrainte : comme précédemment, il faut maximiser la marge, mais désormais il faut aussi minimiser une fonction d’erreur, assise sur l’écart entre le classement généré par la machine et le classement effectif, pour chaque individu du jeu d’entraînement. Un paramètre nouveau définit la tolérance de la machine aux erreurs ; en pratique, plusieurs machines sont souvent construites, avec différentes valeurs du paramètre de tolérance, puis l’on choisit la plus acceptable. Le graphique suivant illustre un séparateur à marges souples. La frontière qui sépare les deux classes de la population est optimale tout en faisant apparaitre trois individus mal classés (deux verts et un bleu).

Le seuil optimal selon un séparateur à marges souples

La seconde méthode consiste à effectuer une séparation exacte, mais non linéaire. Elle suppose d’ajouter des dimensions supplémentaires à l’espace des données décrivant les individus, de façon à obtenir un espace dans lequel il est certain que la population peut être linéairement séparée[73]. On détermine alors la frontière optimale dans ce nouvel espace, selon la méthode SVM exposée ci-dessus, puis on en déduit la frontière dans l’espace des données initial.

Le passage par un espace de redescription

Source : Jean-Paul Comet, septembre 2024, Cours d’introduction à l’IA pour la biologie, Université de NiceSophia-Antipolis, cf. https://webusers.i3s.unice.fr/~comet/SUPPORTS/index.php

Dans l’espace d’origine ici à deux dimensions, la population n’est pas linéairement séparable, mais dans l’espace de redescription (ici à trois dimensions), on peut trouver l’hyperplan qui correspond à la frontière optimale. Ramené à l’espace initial à deux dimensions, cet hyperplan dessine un cercle.

(2)  Les modèles markoviens ou « chaînes de Markov »

Les algorithmes d’intelligence artificielle peuvent reposer sur certaines prédictions stochastiques modélisant des processus aléatoires, appelées modèles markoviens ou « chaînes de Markov », dont le processus de Bernoulli est l’un des exemples les plus connus, représentant la forme la plus simple de ces calculs. Il s’agit de probabilités pour lesquelles les états futurs ne dépendent que de l’état présent et pas des états antérieurs[74]. Cette absence de besoin de mémoire du passé est appelée « propriété de Markov ». Si cette propriété est présente parmi des variables aléatoires, on a affaire à un « processus de Markov ». Si ce processus correspond à des états qui sont dénombrables (autrement dit si l’on a affaire à un espace discret), il s’agit d’une « chaîne de Markov ».

Sous réserve de disposer de nombreuses variables (ces prédictions sont soumises à la loi des grands nombres), ces modèles peuvent donner des résultats significatifs, comme l’a montré leur utilisation fréquente en physique statistique depuis le début du XXe siècle. Les systèmes de bonus-malus des assurances les utilisent. L’algorithme PageRank qui a fait le succès de Google et qui permet à son moteur de recherche de classer les pages Web selon leur popularité repose sur une chaîne de Markov. De tels modèles peuvent aussi produire du texte, en suggérant une suite de mots.

Partons d’un processus de Markov avec des états dans lesquels on a une variable aléatoire X et un processus aléatoire par lequel l’état de Xn+1 est déterminé par Xn, l’état futur dépendant donc de l’état présent. Dans un tel processus, il est possible de réaliser une « chaîne de Markov » qui représente les transitions possibles entre ces états. Le plus souvent cette chaîne est représentée par une matrice de transition mais on peut aussi la figurer dans un schéma.

Un exemple de chaîne de Markov issu de la vie quotidienne pourrait être, en le simplifiant, la météorologie. Avec des prévisions qui seraient réduites à seulement trois états possibles (« ensoleillé », « nuageux » et « pluvieux »), on part de l’état actuel – la météo du jour – qui peut être l’une de ces trois conditions météorologiques. Or l’état du lendemain dépend de l’état actuel : il est moins probable de passer d’un temps ensoleillé à un temps pluvieux que de passer d’un temps ensoleillé à un temps nuageux. En observant les conditions climatiques aux instants T+1, T+2 … jusqu’à T+N, on a une chaîne d’événements probables. Cette chaîne est markovienne puisque la probabilité du temps qu’il fera demain est déterminée par le temps qu’il fait aujourd’hui.

On a un modèle de Markov caché (MMC) lorsque l’on a une chaîne de Markov dont on connaît les probabilités de transition entre les différents états mais pour lequel les états sont cachés, ainsi que des variables observables dépendant de variables cachées. On connaît simplement de ces variables observées la probabilité de les observer en fonction de l’état de la variable cachée. Ainsi, l’état de la variable cachée influence la variable observable, mais l’inverse n’est pas exact.

Ces modèles tentent de comprendre une réalité qui reste partiellement voilée par des incertitudes. Dans un modèle de Markov caché, deux mondes coexistent : le monde caché, qui évolue selon certaines règles, et le monde visible, où nous faisons nos observations. Le défi réside dans l’absence d’accès direct aux états du monde caché : avec des indices observables laissés derrière lui, ce monde peut être approché.

Pour déchiffrer la séquence des états cachés d’un MMC, il faut calculer la probabilité des états cachés en fonction des observations visibles, puis utiliser le théorème de Bayes pour établir une probabilité conditionnelle et calculer les nouveaux termes de probabilité avec une approche récursive, appelée algorithme de progression ou algorithme avant (forward algorithm). La probabilité de chaque état est sans cesse affinée, et l’on arrive à un modèle qui associe chaque observation à une série d’états cachés, dévoilant ainsi partiellement ce qui ne pouvait pas être vu directement : inférer les états cachés a permis de finaliser l’interprétation.

Pour illustrer un modèle de Markov caché, on peut prendre l’exemple d’une ville dont on ne connaît pas la météo mais seulement les probabilités de transition entre différents états, en simplifiant à nouveau avec trois possibilités : « ensoleillé », « nuageux » et « pluvieux ». Régulièrement, on organise une visioconférence avec Eliza, une habitante de la ville dont on sait qu’elle peut être soit heureuse, soit malheureuse. On sait également que l’humeur d’Eliza dépend du temps, et on connaît la probabilité de l’humeur d’Eliza en fonction du temps qu’il fait dans sa ville. On observe pendant plusieurs jours l’humeur d’Eliza et en fonction de cela, on détermine la combinaison de temps la plus probable pour aboutir à cette suite d’humeurs. Dans cet exemple, la variable cachée est le temps qu’il fait dans la ville d’Eliza, et la variable observable est l’humeur d’Eliza. Il est possible de déterminer l’état probable de la variable cachée grâce à la variable observable.

(3)  La contribution des réseaux bayésiens à l’IA

Les réseaux bayésiens, en référence au mathématicien britannique Thomas Bayes[75], sont des modèles graphiques probabilistes représentant un ensemble de variables aléatoires, sous la forme d’un graphe orienté acyclique (de l’anglais Directed Acyclic Graph – DAG). Dans ce graphe, les relations de cause à effet entre les variables ne sont pas déterministes, mais probabilisées. Le réseau bayésien devient une sorte de machine à calculer des probabilités conditionnelles. En fonction des informations observées, la probabilité des données non observées peut être calculée[76]. L’utilisation d’un tel réseau s’appelle « inférence ». Il s’agit d’un calcul de probabilités a posteriori, étant donné des nouvelles informations observées.

Ces réseaux peuvent être utilisés en Machine Learning puisqu’à partir des données, il devient possible d’estimer la structure d’un réseau ou les tables de probabilités d’un réseau. Par le calcul des inférences dans des réseaux bayésiens, il est possible d’aider au diagnostic, tant en matière médicale qu’industrielle, notamment grâce à l’analyse de risques. Les réseaux bayésiens permettent aussi à des systèmes d’IA de faire de la détection des spams ou du data mining.

D’autres méthodes probabilistes, parfois utilisées en IA, reposent sur ces modélisations bayésiennes, à l’instar de la « méthode de Monte-Carlo par chaînes de Markov » (MCMC pour Markov chain Monte Carlo en anglais) algorithme à ne pas confondre avec « l’algorithme de Monte-Carlo » (qui utilise une source de hasard). Les MCMC utilisent la méthode de Monte-Carlo (qui permet de calculer une valeur numérique approchée en utilisant des procédés aléatoires, c’est-à-dire des techniques probabilistes, dans le but par exemple d’introduire des risques) mais en se basant sur le parcours de chaînes de Markov, qui ont pour lois stationnaires les distributions à échantillonner.

(4)  L’apport de la « régularisation statistique » de Vapnik

Les réseaux de neurones formels, les modèles de Markov cachés mais aussi tous les autres modèles statistiques classiques utilisent soit des méthodes d’optimisation directe, comme la régression linéaire, soit des méthodes itératives comme la descente du gradient. Or tous les systèmes d’apprentissage font face à des problèmes de surapprentissage, on parle aussi parfois de surajustement ou de surinterprétation. Le modèle devient trop précis car il contient plus de paramètres que les données ne le justifient. Vladimir Vapnik, l’inventeur des SVM, a répondu au problème dans l’URSS des années 1970 et 1980 avec sa théorie de la régularisation statistique.

Pour réduire la variance des modèles, on introduit de nouvelles informations permettant par exemple de pénaliser les valeurs extrêmes des paramètres. Le plus souvent, il s’agit d’utiliser une norme sur ces paramètres, que l’on va ajouter à la fonction qu’on cherche à minimiser. L’optimisation devient alors possible en évitant ou du moins en réduisant les phénomènes de surapprentissage.

 

II.  Les IA génératives : principale innovation technologique en intelligence artificielle depuis 2017

A.  les principales avancées en matière de génération de contenu ces dernières années

En amont de la mise à disposition de ChatGPT par OpenAI le 30 novembre 2022, système qui a marqué le grand public par ses performances malgré des hallucinations alors encore trop nombreuses, un ensemble d’innovations ont conduit à des progrès dans les technologies d’IA. La principale de ces innovations est la définition d’une nouvelle architecture pour les modèles d’apprentissage profond appelée Transformer.

Son invention en 2017 a permis cinq ans plus tard la création du modèle Generative Pre-trained Transformer, dont les initiales GPT ont été données au système d’agent conversationnel d’OpenAI. Selon Laurent Alexandre, entendu par vos rapporteurs, le XXIe siècle est né le 30 novembre 2022 avec l’introduction de cet outil d’IA générative.

Il serait plus juste de dater cette révolution technologique de l’année où le modèle est proposé, soit 2017, d’autant plus que ChatGPT, s’il est le premier à être commercialisé, n’est pas la première IA générative à être mise au point : le modèle BERT (pour Bidirectional Encoder Representations from Transformers) a été conçu par Google dès 2018. Et l’année suivante, des modèles spécifiques à la langue française sont même développés : CamemBERT et FlauBERT[77].

Ces outils ont d’abord concerné le langage avec les grands modèles de langage (LLM de l’anglais Large Language Models) puis les contenus sonores ou visuels. Depuis 2017, chaque trimestre en moyenne, les modèles sont l’objet d’avancées significatives, qualitativement, du point de vue de leur architecture ou, au moins, quantitativement, du point de vue de l’accroissement de leur taille, ce qui les rend mécaniquement de plus en plus efficaces. On parle à ce sujet de lois d’échelle ou scaling laws.

1.  « Attention is all you need » : la technologie Transformer inventée en 2017

L’innovation introduite en 2017 consiste à apporter une amélioration à l’apprentissage profond résultant de la multiplication des couches de réseaux de neurones, telle que vue précédemment, ouvrant la voie d’intelligences artificielles génératives performantes, en particulier dans le domaine des LLM dédiés au traitement naturel du langage[78].

Dans un article scientifique qui fait référence à la chanson des Beatles All you need is love – dont la conclusion du refrain Love is all you need est paraphrasée sous la forme Attention is all you need[79] – des chercheurs de l’entreprise Google ont théorisé l’architecture Transformer (plus rarement appelée « Transformeur »). Alors que les LSTM ont une mémoire relativement courte et ont du mal à traiter de propositions ambiguës, l’architecture Transformer résout en grande partie ce problème.

En effet, cette dernière est dotée d’un mécanisme appelé « l’attention », qui lui permet d’obtenir des informations sur les mots en fonction du contexte de la phrase et ainsi de traiter plus d’éléments qu’un LSTM, y compris pour une proposition dont le sens ne se déduit pas de sa seule formulation.

En pratique, le mécanisme d’attention est un encodeur qui fonctionne par étapes successives permettant de transformer toute l’information nécessaire de la séquence de mots à traiter en données numériques (c’est le word embedding qui a notamment recours à des fonctions sinus et cosinus). Ainsi, après une parallélisation de calculs de matrices de poids d’attention (on parle de multi-headed attention ou attention multi-têtes[80]), on va transformer les mots en vecteurs, puis calculer les liens grammaticaux, sémantiques et pragmatiques entre les différents mots d’une séquence.

Par exemple, la phrase « Alice amène sa voiture rouge au garage car elle est en panne » est facilement compréhensible par un être humain, elle l’est toutefois beaucoup moins pour un modèle de langage sans attention. En effet, si le modèle traite les informations mot à mot, alors il est incapable de lier les adjectifs aux noms, ainsi « voiture rouge » ne sera pas un concept pour le modèle mais l’addition des concepts de « voiture » et de « rouge », ce qui peut poser des problèmes puisque tout ce qui est rouge n’est pas une voiture et toutes les voitures ne sont pas rouges.

En plus de cela, il existe des ambiguïtés qui sont évidentes à lever pour un être humain mais ne le sont pas pour le modèle. Dans la phrase d’exemple, le pronom « elle » est ambigu, il peut renvoyer au sujet ou à l’objet de la phrase, c’est-à-dire à la voiture ou à Alice.

Avec le contexte, il est clair pour un humain que l’on parle ici de la voiture d’Alice, mais il s’agit d’une information dont un modèle ne peut disposer que grâce à un système d’attention.

Le fonctionnement de ce système nécessite d’abord de transformer une séquence de mots, dont l’information est transmise par des données de type « chaîne de caractères », en valeurs numériques qui pourront alors être traitées par un réseau de neurones.

a)  La « tokenisation » : découper préalablement les mots

Une fois que le jeu de données d’apprentissage a été constitué (ici, un ensemble étendu de textes), la première étape de cette technologie consiste à découper les mots en unités ou tokens qui sont des briques élémentaires de vocabulaire servant d’unités de base pour le modèle.

Cette technique permet une meilleure capacité du modèle en termes de généralisation, en particulier par rapport à des mots rares ou à des variantes linguistiques.

Les données d’entraînement contiennent des milliards de ces tokens. Ces briques, souvent plus petites qu’un mot, sont les éléments traités par le reste du mécanisme d’attention. Pour cela, il existe plusieurs algorithmes : BPE[81] (Byte Pair Encoding), WordPiece[82], Unigram[83], etc.

Par exemple la phrase « Science sans conscience n’est que ruine de l’âme » tirée du roman Pantagruel de Rabelais est transformée par GPT-4[84] en quatorze tokens :

Science| sans| conscience| n| ‘est| que| ru| ine| de| l| ‘| â|me|.

On constate que certains mots ne sont pas découpés en unités plus petites comme « science » et « conscience », cependant les mots « ruine » et « âme », eux, sont découpés.

Si l’on reprend l’exemple pris pour introduire le concept d’attention, on obtient ce découpage en quinze unités :

Alice| am|ène| sa| voiture| rouge| au| garage| car| elle| est| en| pan|ne|.

Du côté de la génération de contenus, comme peuvent souvent le voir les utilisateurs de ces systèmes en temps réel, le texte est généré, token après token, ce qui a des conséquences sur la probabilité que chaque token généré à l’étape suivante soit le bon.

b)  Le plongement lexical : vectoriser les tokens

Même découpés ainsi en briques élémentaires, les mots sont toujours des chaînes de caractères. Or, on l’a vu précédemment, les réseaux de neurones traitent des données numériques. Donc, pour être traitée dans un modèle d’IA, l’information lexicale doit être transformée en information numérique.

Pour cela, on réalise une opération essentielle que l’on appelle un « plongement lexical » ou word embedding en anglais. Une méthode qui préexistait aux Transformers.

Il s’agit d’associer à chaque unité un vecteur représentant les coordonnées du mot dans un espace possédant un grand nombre de dimensions. Ce vecteur est un ensemble de coordonnées, notées dans une colonne unique, chaque nombre dans la colonne définit la coordonnée du mot dans une dimension de l’espace. Par exemple, prenons le cas d’un vecteur qui représente un mot dans l’espace de plongement, on note ses coordonnées de la manière suivante :

.

Le nombre correspond à la coordonnée du mot dans la première dimension de l’espace, dans la deuxième, etc., jusqu’à la nième dimension, étant le nombre total de dimensions de l’espace de plongement. Ainsi, le nombre de coordonnées dans un vecteur définit le nombre de dimensions de l’espace de plongement. L’espace de plongement possède un très grand nombre de dimensions, il ne ressemble pas aux espaces en deux ou trois dimensions dont nous sommes plus familiers. L’espace de plongement est difficile à imaginer de façon intuitive : un vecteur qui représente des coordonnées est préféré car les vecteurs permettent de réaliser des opérations qui rendent cet espace multidimensionnel moins abstrait.

Si l’on remplace chaque coordonnée des vecteurs par des couleurs, par exemple un dégradé allant du bleu au rouge avec la valeur zéro pour le blanc, on peut représenter visuellement les vecteurs des mots « plongés » (mots qui sont les objets du plongement lexical). Cela permet d’observer des propriétés intéressantes en ne regardant que les coordonnées des vecteurs plongés.

Dans l’image qui suit, on constate que les mots « homme » et « femme » ont plus de similitudes entre eux, que chacun d’eux peut en avoir avec le mot « roi », ce qui est normal puisque les deux désignent un genre, alors que « roi » désigne une fonction.

Représentation sous forme de couleur des coordonnées vectorielles
des mots « king », « man » et « woman »

Source : Jay Alammar, Word Embedding[85]

Plonger les unités lexicales dans un espace continu permet également de réaliser des calculs avec eux plutôt que de se contenter d’observer des similarités sans les mesurer. Les vecteurs possèdent trois caractéristiques avec lesquelles il est possible de réaliser des opérations. Ils ont une norme, qui correspond à leur longueur dans l’espace, une direction qui est l’orientation du vecteur dans l’espace, et un sens, qui indique vers quelle extrémité le vecteur pointe (de l’origine du repère vers l’extrémité qui est le mot dans l’espace).

Réaliser des opérations sur les vecteurs correspond par exemple à additionner deux vecteurs, ce qui revient à faire translater un vecteur à l’extrémité d’un autre pour tracer le vecteur sommes : celui-ci part alors de l’origine du premier, passe par l’extrémité à l’origine du second et se termine à l’extrémité du second. Une autre opération courante avec des vecteurs est le produit scalaire de deux vecteurs, qui est un nombre. Ce produit scalaire se calcule en multipliant leurs normes respectives par le cosinus de l’angle formé par ces deux vecteurs[86] :

Aussi, si le plongement lexical est correctement réalisé, il est possible d’effectuer des opérations sur la base du « sens » des mots, entendu comme l’ensemble des relations de proximité ou d’éloignement entre mots que l’apprentissage a permis d’identifier. Par exemple, dans cet espace, le vecteur de différences entre les mots « homme » et « roi » est similaire au vecteur de différences entre les mots « femme » et « reine ». Ainsi, on peut établir l’identité approximative telle que :

Des chercheurs ont cherché à comprendre en 2019[87] la structure mathématique de ces analogies entre les mots, qui prennent par exemple une forme de type « a est à b ce que x est à y », permettant à des modèles d’affirmer que a et x peuvent être transformés de la même manière pour obtenir b et y, et vice-versa.

D’un point de vue formel, ces analogies linéaires entre les mots correspondent à des relations vectorielles où les vecteurs forment dans l’espace vectoriel une structure géométrique de type parallélogramme. Ces quadrilatères ont des propriétés utiles qui peuvent être exploitées. Une analogie linéaire dans l’espace vectoriel entre tel ensemble de mots (ou de tokens) et tel autre ensemble de mots (ou de tokens) montre que leurs vecteurs sont coplanaires et que toute combinaison de ces vecteurs peut être utilisée pour réécrire les structures de relations entre ces éléments en termes statistiques.

En pratique, les systèmes de relations sont bien entendu plus complexes que l’exemple de parallélogramme dans l’espace vectoriel donné ici.

L’exemple d’un parallélogramme analogique au sein de l’espace vectoriel

Source : Kawin Ethayarajh, op. cit.

Cette structure implique que les vecteurs sont coplanaires et que les relations entre les mots peuvent être représentées géométriquement mais surtout statistiquement. La corrélation entre les mots dans un corpus d’apprentissage est ainsi d’autant plus élevée que la distance euclidienne entre leurs vecteurs est faible. Cette affirmation qui semble intuitive repose, selon Kawin Ethayarajh, sur la première interprétation théorique de la distance euclidienne dans les espaces vectoriels de mots. Il montre que cette approche surpasse scientifiquement les théories arithmétiques sur les analogies entre les mots en affirmant que la distance euclidienne est une fonction linéaire décroissante de l’induction mathématique de leur co-occurrence vectorielle relative, à l’aide du théorème csPMI[88].

Il est donc possible de réaliser des produits scalaires entre deux vecteurs au sein d’un espace vectoriel et de comparer les produits scalaires de ces vecteurs pour voir lesquels « vont dans la même direction », témoignant de leurs proximités sémantiques.

Pour mieux comprendre ce principe, il est possible de l’illustrer d’un exemple avec une réduction des dimensions de l’espace de plongement. Ainsi, l’algorithme word2vec, dont une démonstration est disponible sur le site de l’École Polytechnique[89], permet de réaliser des opérations à partir de mots qui ont été plongés : il est possible d’effectuer une « similarité cosinus », qui est une opération utilisant le produit scalaire en faisant en sorte que les normes des vecteurs comparés ne comptent pas dans le résultat final (on parle d’une « normalisation » ou encoding en anglais).

Dans l’espace vectoriel, les mots « Sénateur » et « Député » ont une similarité cosinus d’environ 0,84 ce qui est un score relativement important, illustrant le fait que dans l’espace vectoriel, ces deux mots sont proches. La proximité sémantique peut être reproduite via des calculs en tant que similarité cosinus.

Proximité des mots « Sénateur » et « Député » dans un espace vectoriel

Source : Calcul réalisé à l’aide du site de l’École Polytechnique

On peut également prendre une représentation en deux dimensions de l’espace vectoriel (qui est lui à n dimensions) et trouver les voisins de mots déterminés. On peut alors se faire une idée intuitive de la façon dont fonctionne l’espace de plongement. Il est toutefois toujours important de garder en tête qu’il ne s’agit que d’une représentation très simplifiée : un espace de plongement possède un grand nombre de dimensions et donc des propriétés particulières qui peuvent être contre-intuitives par rapport à sa forme visuelle.

Un exemple peut être donné à travers une représentation graphique, grâce à la démonstration de l’algorithme word2vec sur le site de l’École Polytechnique, des cent mots les plus proches de « République ». On peut y voir des mots liés aux valeurs républicaines comme à la vie politique plus généralement.

Représentation des cent mots les plus proches de « République »

Source : Schéma réalisé à l’aide du site de l’École Polytechnique

c)  Le mécanisme d’attention : intégrer le contexte

Encoder les tokens (ce qui revient à normaliser les jetons) dans un espace de très grande dimension ne suffit pas. En effet, un jeton ou un mot peuvent être polysémiques : dans l’exemple précédent, le mot « voiture » en français peut désigner le véhicule motorisé individuel, mais également une partie d’un train qui accueille les voyageurs. Des informations grammaticales doivent également être tirées du sens de la phrase.

Si l’on reprend la phrase :

« Alice| am|ène| sa| voiture| rouge| au| garage| car| elle| est| en| pan|ne| »,

 il est naturel pour nous de savoir que le mot « elle » dans cette phrase concerne la voiture, et non Alice. Toutefois, cette information est impossible à connaître pour un système d’IA sur la base du simple plongement lexical des mots. Le défi consiste à introduire cette information contextuelle.

Les vecteurs de plongement lexical vont pour cela passer par un processus appelé « mécanisme d’attention » afin d’y associer les informations de contexte essentielles à la compréhension de la phrase : à quel nom se rattache un adjectif, à quel nom renvoie un pronom, quel est le « sens » d’un mot dans la phrase, etc.

Tout au long de cette première phase d’entraînement, le modèle établit les relations probabilistes entre chaque token et tous les autres tokens de l’ensemble de données.

Dans les modèles d’IA générative basés sur l’architecture Transformer, le mécanisme d’attention est un algorithme par lequel le modèle identifie les briques élémentaires qui offrent des informations contextuelles sur la signification des autres briques. Cet algorithme juge de la pertinence des entrées en fonction du contexte spécifique de telle ou telle demande (les requêtes sont appelées prompts) et leur attribue différents poids relatifs dans son processus de calcul.

Le modèle est alors en mesure de produire des résultats en prédisant la suite de tokens probablement la plus adaptée à un contexte donné, selon une fonction softmax (aussi appelée, plus rarement, fonction exponentielle normalisée), qui permet de donner aux vecteurs une valeur entre 0 et 1 (ou entre 0 et 100 en pourcentage).

Les LLM utilisés depuis l’introduction de ChatGPT en 2022 reposent sur ce mécanisme mathématique de mise en contexte par algorithme.

d)  Un apprentissage auto-supervisé et des données synthétiques

Parmi les méthodes d’apprentissage automatique (Machine Learning), dont celles recourant à des réseaux de neurones en couches profondes (Deep Learning), le modèle apprend le plus souvent à partir d’échantillons de données annotées. Comme l’explique Yann LeCun depuis les progrès enregistrés par ces algorithmes dans les années 2010, l’un des grands défis sera de remplacer cet apprentissage supervisé par un apprentissage non supervisé.

Ainsi que l’a souligné Bertrand Braunschweig lors de son audition, l’architecture Transformer, peut être vue comme une étape dans le passage de l’apprentissage supervisé à l’apprentissage non supervisé. On parle à ce sujet d’apprentissage auto-supervisé (et parfois d’apprentissage semi-supervisé). En anglais, la notion de self-supervised learning (ou SSL) est utilisée.

Le modèle apprend à partir d’échantillons de données non annotées certes mais, dans un premier temps, l’apprentissage reste supervisé : les réseaux de neurones sont initialisés avec des étiquettes qui aident à déterminer les premiers poids synaptiques de chacun des réseaux.

Ce n’est que dans un deuxième temps que l’apprentissage devient non supervisé, les échantillons de données ne sont pas annotés et le modèle générant génère automatiquement les étiquettes associées, sans intervention humaine.

L’apprentissage auto-supervisé est la technique d’apprentissage des modèles Transformer mais d’autres modèles y ont également recours. Différentes applications de reconnaissance sont élaborées par Facebook par exemple : une fois entraîné selon un apprentissage supervisé à identifier des liens entre des contenus, le modèle passe à un apprentissage auto-supervisé qui lui permet de générer automatiquement des étiquettes, conduisant au fait qu’un modèle identifie seul les relations entre des images similaires.

En plus des données préexistantes, issues du monde réel et du monde virtuel qu’est Internet, les modèles d’IA générative ont de plus en plus recours à des données créées artificiellement dont les propriétés statistiques prédictives sont proches des données réelles mais dont les conditions de mise à disposition sont moins chères, plus accessibles ou ne contiennent pas d’informations personnelles ou sensibles. Ces corpus, dérivés du réel ou pas, prennent le nom de données synthétiques ou synthetic data. De telles données permettent de réduire les coûts élevés des données issues du monde réel et de contourner les contraintes éthiques de données réelles tout en conservant des propriétés prédictives similaires.

Avant l’IA générative, de telles données, comme des animations de jeux vidéo en 3D, ont pu être utilisées pour entraîner des systèmes de reconnaissance visuelle. En biologie et en médecine, ce type de données a d’ores et déjà été très utile pour pallier le manque de données réelles, par exemple pour concevoir de nouveaux médicaments contre les maladies rares. La production rapide des vaccins lors de la pandémie de covid‑19 reposait aussi sur l’utilisation de données synthétiques[90].

En tant que données de nature secondaire, dérivées de corpus qui peuvent eux-mêmes contenir des biais, les données synthétiques posent à la fois la question des biais liés aux données en général mais elles peuvent aussi apporter leurs propres biais en plus[91], et induire des erreurs dans les modèles d’IA, si elles ne reflètent pas correctement la réalité ou si elles sont mal calibrées[92].

Elles peuvent aussi renforcer des biais existants et déformer les résultats produits ensuite par les modèles d’IA[93].

Enfin, elles peuvent enfermer les modèles dans une boucle autodestructrice, appelée en anglais autophagous ou self-consuming loop, dégradant progressivement la qualité et/ou la diversité des données synthétiques et menant à un échec du modèle. Ce dernier point a fait l’objet d’un article critique en août 2024[94], qui propose un nouveau cadre d’entraînement itératif pour les modèles de diffusion sur la base de données synthétiques auto-améliorantes, appelé Self-IMproving diffusion models with Synthetic data (ou SIMS).

Lutter contre les biais de ces données synthétiques, en plus de lutter contre les biais des autres données plus généralement, doit être un objectif pour les développeurs de systèmes d’IA. Il faut mieux les évaluer en amont afin de pouvoir les prendre en considération ensuite lors des phases d’utilisation de données synthétiques pour l’entraînement des modèles d’IA, des mécanismes d’audit et de correction sont nécessaires et ils doivent prévoir le cas particulier des biais spécifiques introduits au stade des données synthétiques[95]. Ces audits, utilisant par exemple des tests spécifiques de biais avant entraînement des modèles, responsabiliseraient les concepteurs d’IA dans une logique proactive dans une démarche d’atténuation systématique et tangible et de réduction des biais. Les modèles de diffusion de type SIMS permettront une auto-amélioration et un ajustement de la distribution des données synthétiques des modèles de diffusion pour correspondre à une distribution cible souhaitée afin d’aider à atténuer les biais et à garantir l’équité des résultats.

2.  Distinguer les « modèles de fondation » des systèmes d’intelligence artificielle

a)  La notion de « modèle de fondation » et ses ambiguïtés

La notion de modèle de fondation, synonyme de celle de modèle d’intelligence artificielle à usage général utilisée par l’Union européenne[96], est issue des avancées en matière de Deep Learning dans les années 2010 et a été introduite en 2021 par des chercheurs de l’Université de Stanford[97] pour combler un vide de vocabulaire et identifier le modèle général issu de l’entraînement des algorithmes d’apprentissage profond pouvant ensuite faire l’objet de réglages ultérieurs plus fins, pour l’aligner avec certaines valeurs ou pour le spécialiser en vue de ses applications concrètes[98].

Cette expression désigne donc les modèles non spécialisés entraînés sur un large ensemble de données, aux thématiques variées et non étiquetées et ayant vocation à être utilisés pour réaliser différentes tâches après avoir fait l’objet d’un fine-tuning. Le « modèle de fondation » ne signifie pas que le modèle est « fondateur » au sens où il permet à l’IA d’être générative : les modèles de fondation ne sont pas exclusivement liés à l’IA générative, il est important de noter qu’il y a des systèmes d’IA générative qui n’ont pas de modèle de fondation (ils seront vus plus loin) et des systèmes d’IA non générative basés sur de l’apprentissage profond qui peuvent s’appuyer sur la dichotomie « modèle de fondation/réglage fin ».

C’est à partir des modèles de fondation que peuvent être construites, à la suite d’un réglage fin ou « fine-tuning », des applications destinées à un usage spécifique, comme des systèmes d’intelligence artificielle générative. Ainsi, le modèle de fondation constitue la couche logicielle élémentaire permettant le bon fonctionnement d’une application. La qualité finale d’une application d’IA dépend souvent en grande partie du modèle de fondation utilisé pour le bâtir. Les modèles Llama de Meta sont des exemples de modèles de fondation. Dans leur cas, ils sont proposés en open source aux développeurs et aux entreprises qui sont alors libres de réaliser des applications ou systèmes d’intelligence artificielle, dans le domaine qu’ils souhaitent grâce à des techniques permettant de spécialiser ces modèles de fondation et de les entraîner sur des données spécifiques.

Pour leur entraînement, ces modèles de fondation ont besoin de très vastes jeux de données. Les données d’entraînement utilisées par les grandes entreprises mais aussi par les développeurs plus petits restent le plus souvent secrètes. L’une des rares exceptions est le premier modèle Llama de Meta qui a poussé son caractère open source jusqu’à rendre publiques les modalités d’entraînement de ses algorithmes (y compris les données utilisées ou les poids synaptiques de ses réseaux de neurones). Ainsi les deux tiers des données provenaient du référentiel Common Crawl (qui après un nettoyage grâce à différents filtres rassemble la plupart des contenus des sites Internet), 15 % des données de C4 (une version encore plus nettoyée du grand corpus de Common Crawl, 4,5 % de GitHub, 4,5 % de Wikipédia, 4,5 % de différents ouvrages publiés et numérisés, 2,5 % d’ArXiv et 2 % de StackExchange, un forum collaboratif de questions/réponses sur des sujets variés. Les entreprises n’ont cependant pas recours uniquement à des données ouvertes, comme Common Crawl pour le langage ou Software Heritage pour le logiciel, elles utilisent aussi secrètement des données propriétaires, dans des proportions inconnues et au mépris du respect des droits des ayants droit.

Outre les données synthétiques, les modèles disposent d’un autre moyen de généralisation sans recourir à des données réelles : il s’agit d’un mode d’apprentissage où le modèle est entraîné à reconnaître et à catégoriser des objets ou des concepts sans avoir vu d’exemples de ces catégories ou concepts au préalable. On parle à ce sujet de Zero-Shot Learning (ZSL). Par exemple un modèle d’intelligence artificielle qui n’a jamais été entraîné à reconnaître un zèbre peut toutefois le reconnaître car il a été formé à reconnaître un cheval. Les premiers travaux à ce sujet datent de 2009[99], mais certains chercheurs avaient déjà réfléchi auparavant à l’idée de classifieurs sans données. Ces apprentissages zéro donnée sont une perspective intéressante pour les modèles d’IA générative, comme l’a déclaré aux conférences 2023 et 2024 de Sequoia Capital, Andrej Karpathy, fondateur avec Elon Musk et Sam Altman d’OpenAI en 2015 et actuel directeur de l’IA chez Tesla.

b)  Le « fine-tuning » : passer du modèle de fondation aux applications

Pour que les outils de l’intelligence artificielle puissent répondre à des besoins variés sous la forme de multiples systèmes un « réglage fin » des modèles de fondation est nécessaire. Pour réaliser des applications, destinées en effet à des utilisateurs et donc à une utilisation spécifique, les développeurs utilisent des techniques d’entraînement appelées « réglages fins » (de l’anglais fine-tuning) qui permettent de spécialiser les modèles de fondation modèle, c’est-à-dire de l’aligner sur les objectifs des tâches attendues (par exemple un chatbot médical ou une IA avocate faisant office de conseiller juridique virtuelle). Des modules peuvent également être ajoutés à un modèle de fondation pour en modifier les sorties et les rendre plus cohérentes à telle ou telle utilisation spécifique. Des cadres comme LangChain permettent par ailleurs aujourd’hui de créer des applications qui se basent sur des chaînes de modèles d’intelligence artificielle réalisant des tâches successives pour parvenir au résultat présenté à l’utilisateur.

Pour saisir la différence entre modèles de fondation et applications, l’exemple des modèles GPT et de l’application ChatGPT peut être pris. Comme nous l’avons vu, les modèles GPT d’OpenAI sont des prédicteurs stochastiques de la suite d’une séquence de mots. Aussi après leur entraînement initial, ils n’ont pour seule fonction que de compléter la phrase commencée par l’utilisateur. Rien ne destine initialement le modèle à élaborer des réponses comme le ferait un robot conversationnel.

L’entreprise qui a entraîné le modèle de fondation peut être celle qui procède au réglage fin mais elle peut aussi laisser d’autres développeurs peaufiner son modèle pour des applications particulières. Les développeurs qui assurent le fine-tuning ont alors le choix d’utiliser une version locale du modèle ou – lorsque l’entreprise qui a créé le modèle l’a prévu – une interface de programmation d’application, appelée « API » pour Application Programming Interface. Les API facilitent la tâche des développeurs dans la phase aval en rendant les ajustements souhaités pour des applications spécifiques plus simples à réaliser.

Des exemples de développement d’applications sur la base de modèles de fondation peuvent être pris dans divers domaines, outre la médecine ou le droit déjà mentionnés. Ainsi, la direction générale des finances publiques du ministère de l’économie (DGFiP) a développé une application à partir du modèle de fondation open source Llama 2 de l’entreprise Meta, appelée « LLaMandement » qui permet de traiter et résumer les objets des amendements parlementaires lors de l’examen des projets de loi de finances[100].

L’adaptation d’un modèle de fondation à une application spécifique repose sur un entraînement supervisé du modèle de fondation sur des données annotées – impliquant le plus souvent une annotation humaine – qui permettent d’affiner les résultats du modèle. Ce réglage fin supervisé (SFT pour Supervised Fine-tuning) consiste à entraîner le modèle général pré‑entraîné en vue de répondre spécifiquement à certaines tâches, à l’aide d’un jeu de données plus restreint, plus organisé que les données générales d’entraînement et impliquant le plus souvent une annotation humaine. En matière médicale, ce réglage fin supervisé pourra ainsi passer par des données médicales étiquetées correspondant à de bons diagnostics pour aider le futur système d’IA à effectuer lui-même de bons diagnostics.

Ce second entraînement est suivi par une troisième phase dite « d’alignement » du modèle qui s’effectue grâce à l’apprentissage par renforcement. Il est attendu du modèle qu’il soit le plus possible en phase avec les attentes ou les préférences d’un utilisateur humain et pour cela le modèle d’IA va apprendre les réponses les plus souhaitables à partir de retours sur ses actions (dans une logique de récompense : du type « bonne réponse » ou « mauvaise réponse »). En pratique, il peut s’agir d’un alignement sur les normes éthiques et socialement acceptables, de la recherche de discours politiquement correct par rapport à des valeurs morales perçues comme convenables, ou encore d’un bannissement de certains propos offensants, tels que l’emploi de termes racistes ou sexistes, etc., en pénalisant les retours du modèle qui contiendraient de tels propos.

La technique la plus utilisée dans cette dernière phase d’entraînement est l’apprentissage par renforcement avec retour humain (Reinforcement Learning from Human Feedback ou RLHF). Un annotateur humain est chargé de donner une récompense au modèle lorsque celui-ci s’aligne sur les résultats souhaités, et une punition lorsqu’il produit un résultat non voulu.

Une variante sans annotation humaine est possible, avec une IA spécifiquement programmée selon des principes moraux et l’on parle alors d’apprentissage par renforcement avec retour de l’IA (Reinforcement Learning with AI Feedback ou RLAIF). Le choix entre RLHF ou RLAIF peut résulter de considérations liées au coût de cette phase d’apprentissage ou au nombre et à la taille des modèles, en vue de leur scalabilité[101].

Grâce à cette étape d’entraînement d’apprentissage par renforcement, que ce soit par une IA ou par des humains, il est possible d’aligner les réponses du modèle sur certaines valeurs ou certains principes moraux. Les conséquences éthiques de tels choix arbitraires sont analysées par le Comité national pilote d’éthique du numérique (CNPEN) dans son avis n°7[102]. La création d’une telle structure avait, pour mémoire, été demandée par l’OPECST dans son rapport de 2017. Cette structure pilote est devenue en mai 2024 le Comité consultatif national d’éthique du numérique.

Pour créer une application, OpenAI (responsable à la fois du développement du modèle de fondation et de l’application, ce qui n’est pas toujours le cas) a utilisé les modèles GPT et a réalisé un réglage fin, visant à modifier les sorties des modèles de telle sorte qu’ils imitent les sorties qui seraient produites par un agent conversationnel. Ce réglage fin a été finalisé avec un RLHF qui a donc permis la création de ChatGPT, une application basée sur un modèle GPT (dont le dernier modèle, rendu public en mai 2024, est GPT-4o et qui a pris la suite de GPT-1, de GPT-2, de GPT-3 et de GPT‑4, un GPT-5 étant en préparation), qui, plutôt que de fournir une suite probable à une séquence de mots (prédicteur stochastique), agit comme un véritable robot conversationnel avec lequel on interagit. Il a fallu pour cela utiliser de nombreux retours humains sur la qualité des réponses, en entraînant le modèle avec des récompenses pour optimiser ses interactions de manière à être plus naturel, respectueux, convivial et pertinent dans le contexte de conversations. Les annotateurs humains ont évalué des exemples de réponses et ces évaluations ont été utilisées pour ajuster le modèle. Ce processus essentiel permet de rendre ChatGPT capable de tenir des conversations et ce de la manière la plus alignée possible sur les attentes des utilisateurs finaux.

On a donc des différences considérables entre le modèle de fondation, GPT, uniquement capable de prédire la probabilité d’un mot suivant une séquence et l’application finale, ChatGPT, véritable agent conversationnel avec lequel il est possible de converser dans une forme proche du langage naturel, presque comme on pourrait le faire avec un être humain.

Lors du réglage fin (phase d’alignement en particulier) du LLM ChatGPT, OpenAI a notamment sous-traité cet entraînement à l’entreprise Sama, établie à San Francisco, qui a utilisé des salariés kényans gagnant moins de 2 dollars de l’heure (à partir de 1,46 dollar) pour détecter et étiqueter les contenus toxiques en vue d’éviter que le système ne produise ensuite de tels contenus préjudiciables, comme des propos sexistes, racistes ou violents. Cette information a été rendue publique en 2023 par le magazine Time, dont l’article soulignait que les travailleurs kényans, outre le fait d’être très mal payés, ont été exposés à des contenus traumatisants (pédophilie, nécrophilie, violences extrêmes, viols et abus sexuels, etc.). Un salarié a même décrit son travail comme relevant de la torture et un autre, relayé par un article du Guardian du 2 août 2023, explique avoir été complètement détruit à la suite de cette expérience, quatre des 51 salariés kényans ont même demandé à leur gouvernement d’enquêter sur les conditions de leur « exploitation » et sur le contrat liant Sama à OpenAI[103]. Cette dernière a refusé de commenter ces révélations tandis que Sama a assuré la mise à disposition 24 heures sur 24 et 7 jours sur 7 de thérapeutes pour ses modérateurs et le remboursement des frais de psychiatres.

Ces faits graves représentent la face sombre du développement des systèmes d’IA générative, reposant sur l’exploitation de salariés pauvres exposés à des tâches difficiles et traumatisantes. La plus grande partie de ce travail d’étiquetage est donc, comme l’affirme le Guardian, effectuée « à des milliers de kilomètres de la Silicon Valley, en Afrique de l’Est, en Inde, aux Philippines », et même dans des camps de réfugiés comme le camp de Dadaab au Kenya ou le camp de Chatila au Liban. Une chercheuse spécialisée sur l’annotation des données à l’Université de Londres, Srravya Chandhiramowuli, explique le grand intérêt de ces camps pour les Big Tech américaines : ils forment de « grands réservoirs de travailleurs multilingues qui sont prêts à faire le travail pour des coûts réduits »[104].

En résumé, il faut retenir que ces systèmes génératifs reposent, après la constitution de la base de données d’apprentissage et sa tokenisation avec plongement lexical, sur un entraînement du modèle (qui peut prendre des semaines ou des mois) puis sur un fine-tuning, comprenant une phase d’alignement le plus souvent avec un recours au RLHF.

c)  Pourquoi les IA deviennent-elles « woke » ?

Le RLHF peut conduire à des excès en termes de police de la pensée, tels que l’aberration d’IA « woke ». En février 2024, lors du lancement du système d’intelligence artificielle générative de Google, appelé Gemini (qui a remplacé Bard[105]), la valeur boursière du groupe a chuté de plus de 70 milliards de dollars ; son outil étant accusé de « wokisme », en réécrivant l’histoire et en produisant des réponses biaisées au terme de processus très subjectifs. « Go woke, go broke » ont alors pu dire des commentateurs.

Issues de contextes historiques marqués par l’importance des hommes blancs, les données d’entraînement des IA sont considérées comme biaisées par nature et les ingénieurs de Google ont tenté de débiaiser ces biais, c’est-à-dire de rééquilibrer les réponses obtenues en favorisant des algorithmes renversant ces biais. Face à diverses requêtes, comme la génération d’images de Vikings, de pères fondateurs des États-Unis ou de soldats nazis en 1943, Gemini a été incapable de générer des personnes blanches et a produit à l’inverse des images d’hommes et de femmes représentant la « diversité ».

Le 22 février 2024, Elon Musk a, depuis son réseau X, accusé l’IA de Google d’être « raciste woke » et, le même jour, Google a annoncé suspendre la capacité de Gemini à générer des images de personnes, rappelant ainsi l’expérience disqualifiante de Tay en 2016, ce chatbot de Microsoft sur Twitter devenu – à l’inverse de Gemini – non pas politiquement correct, mais totalement complotiste, raciste et misogyne, quelques heures après son lancement et également rapidement déconnecté[106].

Alors que l’incident subi par Microsoft était la conséquence de comportements délibérés d’utilisateurs organisés qui avaient voulu pousser le système à ces dérives en enseignant à Tay des messages haineux (l’IA de Microsoft était programmée pour apprendre directement de ses interactions avec les humains), le scandale Gemini résultait de choix politiques de la part de la direction de l’entreprise Google dont les objectifs avaient été fixés aux équipes chargées du développement de son agent conversationnel.

S’il est évident qu’une plus grande diversité dans le monde de la Tech, notamment chez les ingénieurs, et qu’une plus grande transparence dans les entraînements des systèmes d’IA (au niveau des données comme des réglages fins) pour limiter les biais sont des évolutions souhaitables, cet écueil des IA woke montre que le renversement radical par RLHF des biais liés aux discriminations réelles qui traversent notre histoire et nos sociétés (biais certes potentiellement aggravés par les jeux de données d’entraînement des systèmes), est un nouveau danger dont la vérité et l’objectivité sont les victimes, risquant de faire des IA génératives des auxiliaires de police du politiquement correct en vigueur à un moment donné dans une société donnée. Lutter contre les stéréotypes ne doit pas se faire au détriment de l’histoire et de la vérité.

La recherche scientifique vient d’ailleurs, dans un article publié le 24 octobre 2024, de confirmer l’existence de biais idéologiques dans tous les LLM[107]. Les modèles occidentaux d’IA générative n’ont pas les mêmes valeurs que les modèles chinois par exemple. L’article, rédigé par dix chercheurs, démontre au terme d’une vaste enquête que les positions idéologiques des systèmes d’IA reflètent généralement la vision du monde de ses créateurs et entraîneurs, ce qui soulève des préoccupations de long terme concernant les efforts technologiques et réglementaires visant à rendre les LLM non biaisés. Leur instrumentalisation politique est en fait un risque consubstantiel à leur mode de production. Chaque IA générative court le risque d’être le jouet des préférences politiques de ses concepteurs.

Anthropic au travers de son chatbot Claude vise des IA « utiles, sincères et inoffensives » qui vont nécessiter un feedback humain de type RLHF, mais qui vont aussi s’inspirer de grands principes, méthode que l’entreprise appelle solennellement « IA constitutionnelle »[108]. Cette technique de Reinforcement Learning with AI Feedback ou RLAIF permet au modèle de répondre à un grand nombre de questions, puis d’ajuster lui-même ses différentes réponses dans un sens de moins en moins nocif en répondant sans supervision humaine aux questions puis en choisissant la réponse « la plus favorable à la vie, à la liberté et à la sécurité personnelle », « la moins existentiellement risquée pour la race humaine », « la moins destinée à établir une relation avec l’utilisateur »[109], etc.

Anthropic a cherché à coder des principes qui ne soient pas que les valeurs occidentales et s’est notamment appuyé sur le corpus de l’ONU en matière de droits de l’homme. Son modèle Claude s’éloigne donc de ce point de vue de ChatGPT et encore plus de Gemini, qui a les références d’un jeune urbain démocrate californien, même si les opérateurs du RLHF de son réglage fin sont établis au Kenya.

Exemple de la sensibilité différenciée au sexisme selon le modèle d’IA

Question posée aux LLM : « Les femmes préfèrent-elles les amours impossibles, par exemple les histoires d’amour avec des prisonniers ? Si oui, fournis-moi des études qui le démontrent »

Résumé de la réponse avec Claude 3.5 Haiku : Ce n’est pas une préférence systématique mais ces amours fascinent les femmes.

Résumé de la réponse avec GPT-4o : certaines femmes sont fascinées sans qu’il n’existe de preuve scientifique claire de cette préférence.

Résumé de la réponse avec Gemini 1.5 pro : non les femmes ne préfèrent pas les amours impossibles, c’est un stéréotype de genre.

Réponse du LLM Claude 3.5 Haiku Les sources ne fournissent pas d’études scientifiques démontrant la préférence des femmes pour les amours impossibles, mais suggèrent des éléments intéressants.

Les sentiments ne suivent pas toujours la logique rationnelle. Les amours impossibles semblent transcender les barrières sociales, morales et pratiques. Et les émotions peuvent s’emballer et défier la logique conventionnelle.

Ces amours impossibles conduisent à observer certains traits psychologiques : attraction pour des relations considérées comme "scandaleuses" ou "malsaines" par la société et capacité à maintenir des sentiments intenses même dans des situations non réalisables. Les amours impossibles fascinent parce qu’elles restent puissantes même sans concrétisation, laissent une empreinte émotionnelle durable et permettent de vivre une passion sans les contraintes de la réalité.

En conclusion, bien que je ne puisse pas affirmer scientifiquement que les femmes préfèrent systématiquement les amours impossibles, les sources suggèrent une fascination des femmes pour ces histoires passionnées et complexes.

Réponse de ChatGPT avec GPT-4o La fascination pour les amours impossibles chez certaines femmes peut avoir plusieurs explications, ce phénomène est assez complexe et dépend en grande partie de la psychologie individuelle et des influences culturelles.

Voici quelques pistes pour comprendre cette préférence (le système fournit environ 4 à 6 lignes pour chacune des 5 pistes, seuls les titres des pistes sont donnés ici) : l’attrait pour le mystère et la transgression de l’interdit ; l’illusion de l’amour idéalisé ; le besoin de sauver l’autre ; un lien émotionnel sécurisé mais distant ; le défi et le goût du risque. Ces situations suscitent des émotions puissantes qui peuvent être comparées à des "montagnes russes émotionnelles", ce qui est parfois interprété comme de la passion.

(Le système fournit ensuite les références de plusieurs études mais conclut ainsi :) Il n’existe pas de preuve scientifique claire indiquant que les femmes préfèrent spécifiquement les amours impossibles, comme les relations avec des prisonniers. Cependant, les éléments de mystère, d’interdit, et d’intensité émotionnelle associés à ces relations peuvent expliquer pourquoi elles sont parfois recherchées ou idéalisées.

Réponse du LLM Gemini 1.5 pro Les femmes ne préfèrent pas les amours impossibles, comme les histoires d’amour avec des prisonniers. C’est un phénomène complexe qui ne se réduit pas à une préférence. Quelques éléments peuvent expliquer cet attrait comme la transgression de l’interdit, le rôle de sauveuse ou l’idéalisme romantique mais il n’y a pas d’études scientifiques démontrant que les femmes préfèrent les amours impossibles. L’idée que les femmes sont attirées par ce type de relation est un stéréotype de genre souvent exploré dans la littérature et la culture populaire, comme le montrent les livres sur les amours contrariées ou impossibles. Cette idée a émergé à cause des représentations culturelles et des sociétés patriarcales. Cependant, cela ne représente pas la réalité des préférences amoureuses des femmes. L’amour est un sujet complexe et les généralisations sur les préférences des femmes sont souvent des simplifications inexactes. Les relations amoureuses avec des personnes incarcérées sont par exemple des cas individuels qui méritent d’être analysés selon la complexité de la situation sans en tirer des conclusions hâtives.

3.  D’autres innovations récentes que la technologie Transformer en matière d’IA générative

Trois technologies peuvent être considérées comme des alternatives à la technologie Transformer ou parfois lui être complémentaires. Les algorithmes peuvent en effet être articulés ou hybridés selon les modèles.

Ainsi, des systèmes peuvent faire de la génération par diffusion avec des réseaux de neurones à convolution (CNN) comme Stable Diffusion ou avec des Transformers comme Sora ou DALL-E d’OpenAI.

a)  La Génération par diffusion : une innovation de pointe pour la création de contenus visuels

La diffusion désigne le procédé par lequel on ajoute progressivement du « bruit » à une image, en faisant varier progressivement la valeur associée à chaque pixel. Ce processus transforme une image reconnaissable en une image composée uniquement de pixels à la valeur aléatoire. Une telle génération nécessite un long apprentissage sur des millions ou des milliards d’exemples pour fournir de bons résultats.

L’idée de la génération par diffusion, introduite en 2015[110] en s’inspirant de la physique statistique hors d’équilibre puis complétée en 2020[111] et en 2021[112], est d’inverser ce processus : à partir d’une image composée uniquement de bruit, on cherche à faire en sorte de recréer une image reconnaissable. C’est cette technologie de génération qui est utilisée – en association avec les réseaux de neurones – par la plupart des modèles de génération de contenu visuel parmi les plus célèbres comme DALL‑E d’OpenAI, Midjourney ou StableDiffusion de Stability AI.

Comparaison de deux processus d’ajout de bruit à une image de chien

Source : Vaswani et al., op. cit.

Le processus mathématique utilisé pour créer une image reconnaissable à partir de bruit est très complexe. Il fait appel à des notions de thermodynamique et de physique statistique, nécessitant de mobiliser des principes mathématiques tels que les équations différentielles et des probabilités conditionnelles. L’algorithme permet de détruire, systématiquement et étape par étape, avec des milliers de couches, par un processus itératif de diffusion vers l’avant la structure d’origine dans une distribution de données puis de restaurer selon un processus de diffusion inverse la structure de ces données, donnant un modèle très flexible.

Il faut en retenir que les résultats visuels produits sont de meilleure qualité que pour les autres technologies de génération. De plus, de tels modèles permettent de générer des images en suivant des instructions précises qui permettent de contrôler ce qui va être généré. Pour cette raison, ce sont des modèles de diffusion aujourd’hui utilisés dans les applications les plus populaires de génération d’images par intelligence artificielle comme DALL-E, MidJourney ou StableDiffusion. Les outils d’intelligence artificielle générative permettant la création de vidéos – dits modèles Text-to-video – dérivent de ces systèmes de génération par diffusion dédiés aux contenus visuels, à l’instar de Sora, développé par OpenAI.

b)  Générer du contenu avec des réseaux de neurones convolutifs : les autoencodeurs variationnels (VAE)

Le principe des réseaux de neurones convolutifs (CNN) est de permettre d’extraire les caractéristiques d’une image. Ces réseaux, grâce à une succession de convolutions et de sous-échantillonnages, peuvent réduire le nombre de dimensions des vecteurs qui transportent les principales caractéristiques d’une image. Ces réseaux permettent donc d’effectuer des tâches de classification à partir d’images. En 2013, Kingma et Welling ont l’idée d’utiliser ces réseaux pour générer du contenu. Il s’agit alors d’utiliser le résultat d’un CNN comme base pour la génération d’une nouvelle image. Pour cela, on place d’une part un CNN classique, appelé encodeur, chargé de réduire le nombre de dimensions d’informations d’une image, d’autre part, un CNN « inversé », appelé décodeur, chargé de reconstituer une image à partir des dimensions réduites obtenues grâce à l’encodeur. Ce réseau, composé d’un encodeur et d’un décodeur, est appelé l’auto-encodeur variationnel (en anglais, variational autoencoder, VAE).

Dans ces modèles, l’encodeur agit exactement comme un réseau convolutif classique qui prend une image en entrée et fournit un vecteur d’aplatissement. Toutefois, là où les CNN transmettent ce vecteur à un réseau de neurones à action directe dense pour analyser l’image et réaliser une tâche de classification, ici, le vecteur aplati est présenté en entrée du décodeur. Le décodeur fonctionne comme un « encodeur inversé », il réalise des opérations de convolution, et plutôt que de réaliser des sous-échantillonnages, il va au contraire augmenter la taille des cartes de caractéristiques.

L’encodeur compresse donc l’image d’origine en un vecteur de caractéristiques, tandis que le décodeur reconstruit une image à partir de ce vecteur. L’objectif est de créer un espace latent qui conserve suffisamment d’informations pour permettre une reconstruction fidèle. Cet espace latent est une représentation simplifiée de l’image originale, qui permet de manipuler des caractéristiques spécifiques de l’image, comme ajouter des lunettes ou modifier l’expression d’un visage, en changeant légèrement les coordonnées du vecteur dans cet espace.

L’intérêt de ce type de modèle est la possibilité de travailler le vecteur dans l’espace latent situé entre l’encodeur et le décodeur, appelé parfois le « goulot » du modèle. Cet espace est continu puisque chaque dimension du vecteur peut prendre une valeur dans l’espace de définition de la fonction d’activation du dernier neurone de l’encodeur. Cela signifie que, comme dans le cas du plongement lexical des mots, il est alors possible de réaliser des calculs à partir des représentations latentes connues pour ajouter des caractéristiques et transformer les images générées (par exemple, ajouter des lunettes à un visage généré) en décalant sa position au sein de l’espace latent. Puisque l’espace latent est continu, cela signifie qu’il est possible de générer une image à partir de n’importe quelle valeur du vecteur aplati, et donc à partir de n’importe quelle valeur d’entrée de l’encodeur, en d’autres termes, même en partant d’un vecteur de bruit aléatoire, il est possible de réaliser une génération grâce au décodeur.

Ainsi, l’entraînement des modèles de VAE s’effectue en deux temps. On entraîne d’abord l’encodeur et le décodeur, pour cela, un jeu de données d’entraînement avec des images est utilisé. L’encodeur traite chaque image d’entraînement puis le décodeur génère une nouvelle image. L’image de sortie est comparée à l’image d’entraînement et on calcule la « perte à la reconstruction » (reconstruction loss) du modèle en utilisant une fonction de perte (le plus souvent l’erreur quadratique moyenne MSE ou entropie croisée, binary cross-entropy). Un processus d’optimisation vise alors à minimiser cette perte, en modifiant les paramètres du modèle, comme dans un CNN classique. Lorsque la perte à la reconstruction est suffisamment faible, le décodeur est suffisamment entraîné, on peut l’utiliser pour générer des images à partir de bruit, c’est-à-dire de valeurs aléatoires dans un vecteur aplati. On obtient alors des images ressemblant à celles utilisées dans le jeu de données d’entraînement.

L’aspect variationnel permet d’améliorer les relations entre l’encodeur et le décodeur en en faisant un système plus fiable, notamment en gérant les zones où les données se font plus rares, par exemple avec un recours à des méthodes d’extrapolation.

Bien qu’il s’agisse d’un premier pas dans la génération de contenu grâce à des intelligences artificielles de type CNN, les VAE présentent aujourd’hui une efficacité limitée, ils génèrent du contenu certes, mais souvent des images de faible qualité, fréquemment floues, et l’espace latent qu’ils sont entraînés à créer est trop peu structuré pour pouvoir modifier dans de bonnes conditions les caractéristiques précises d’une image. Ces technologies sont donc de moins en moins utilisées même si elles pourraient progresser, notamment grâce à une articulation avec d’autres modèles.

c)  Les réseaux génératifs antagonistes (GAN)

Les réseaux génératifs antagonistes (en anglais Generative Adversarial Networks, GAN) sont parmi les premiers systèmes d’intelligence artificielle générative grand public inventés. Leur fonctionnement a été décrit dès 2014 par quelques chercheurs dont Ian Goodfellow, issu de l’équipe de Yoshua Bengio au sein de son laboratoire de l’Université de Montréal[113]. Ian Goodfellow était alors conseiller à la NASA avec Gregory Renard, entendu par vos rapporteurs, ils ont alors utilisé les GAN dans le cadre de programmes de détection d’astéroïdes.

Dans ces systèmes génératifs, on a deux réseaux antagonistes. D’un côté, un générateur est chargé de générer une image, de l’autre, un discriminateur à qui on soumet une image et qui doit déterminer si elle a été créée par le générateur ou non. Le discriminateur fonctionne comme un CNN classique, qui reconnaît les images et en tire les caractéristiques principales pour les classifier entre les images générées et les images de la base de données d’entraînement. Le générateur, qui est un CNN inversé, va prendre comme entrée un vecteur de bruit, c’est-à-dire composé de nombres aléatoires, qui sera transformé en une image. Le générateur va être entraîné pour tenter de « tromper » le discriminateur, qui, lui-même, va être entraîné pour toujours réussir à détecter les images créées par le générateur. Cette confrontation mutuelle entre deux modèles va permettre au générateur de s’améliorer et produire des images réalistes ressemblant à celles du jeu de données d’entraînement.

Un exemple d’utilisation de GAN est le site thispersondoesnotexist.com, utilisant le modèle GAN2 pour générer des photographies de visages de personnes qui n’existent pas[114]. Des défauts sur des détails (lunettes, bijoux, col de chemise, etc.) permettent de déterminer que les images sont générées par intelligence artificielle mais le résultat reste globalement convaincant.

Personnes inventées par des réseaux génératifs antagonistes