Les Notes Scientifiques de l’Office – Note n° 36 – Face à l’explosion des données Page 1

 La longue histoire d’une question récurrente

La collecte, l’accumulation et le traitement des données furent des activités humaines bien avant l’apparition de moyens automatiques permettant d’effectuer ces opérations. Ces tâches présentes dès les premières civilisations urbaines – Mésopotamie ou Égypte – incombaient aux institutions comme l’Église et l’État. Comme le rappelle l’historien Robert Darnton « chaque âge a été, à sa manière, un âge de l’information »([i]) : à cet égard, l’explosion des données n’est pas un phénomène nouveau et d’autres contextes ont pu engendrer des angoisses aujourd’hui oubliées([ii]). Néanmoins, les précédents déluges de données paraissent bien modérés par rapport à l’ère actuelle de la civilisation numérique et du Big Data, marquée par les « 3 V » (volume, vélocité et variété des données).

 Prendre la mesure de l’explosion des données

Le volume de données créées augmente en effet exponentiellement passant – au niveau mondial – de 2 zettaoctets en 2010 à 18 zettaoctets en 2016, puis, selon les prévisions, à 64 zettaoctets en 2020 et 181 zettaoctets en 2025([iii]), ce qui pose notamment la question du stockage des données, question déjà traitée dans une note scientifique de l’Office([iv]) et qui ne sera pas abordée dans la présente note. Les capacités humaines et technologiques pour traiter et classer les données ont du mal à suivre un tel rythme, en raison de coûts très élevés et de la concentration des moyens autour d’un nombre limité d’acteurs.

Évolution du volume de données (en zettaoctets)

Source : Statista

Selon Daniel Rosenberg, les données sont « une catégorie de faits et de principes définis, par accord, comme étant au–delà de l’argument »([v]) : les données ont donc un contenu variable, fonction d’un consensus social et historique. Par exemple, alors que les lettres étaient rarement sauvegardées dans le passé et n’étaient pas des données, les e-mails en sont de nos jours : ils sont conservés pour être scrutés par des algorithmes aujourd’hui et demain. De plus, alors qu’auparavant l’état était avec l’église le principal collecteur de données, celles-ci sont aujourd’hui principalement récoltées par des entreprises privées à travers des sources multiples (Internet, capteurs physiques, caméras, satellites, systèmes de navigation, processus industriels, santé, activités scientifiques, génomique…). Ces évolutions confirment la spécificité de l’explosion actuelle des données. Pour comprendre mais aussi visualiser et, le cas échéant, traiter les données, différentes typologies visent à les classer en fonction de critères divers, dont leur nature, leur structure ou, encore, leur usage([vi]). Enfin, le fait que la quantité de données inexactes augmente fortement renforce la difficulté à traiter toutes les données disponibles.

 Nouvelles opportunités offertes par le Big Data

L’engouement autour de l’analyse des données massives (Big Data) s’explique d’abord par les nouvelles opportunités qu’elle offre. Si les données isolées ont peu d’utilité, leur agrégation et leur traitement permettent d’en extraire des connaissances et de faire des prédictions. Alors qu’à l’aide des lois physiques dégagées par la recherche a priori de causes et de déterminants, les déductions permettent traditionnellement de faire des prédictions grâce à des modélisations, comme en météo, les technologies numériques recourent au Big Data à travers des approches inductives, en analysant les données massives afin d’en dégager des lois. On peut distinguer deux types d’analyse : l’application de modèles statistiques aux données massives et l’apprentissage automatique, dans lequel c’est la machine qui construit les modèles algorithmiques de prédiction, au cœur des recherches actuelles en intelligence artificielle ou IA([vii]).

Les opportunités du Big Data sont nombreuses notamment sur un plan économique, comme en témoignent ces métaphores : nouvel or noir, pétrole du XXIe siècle, révolution du Big Data, etc. Parmi les bénéfices escomptés pour les entreprises : l’amélioration de l’efficacité de l’entreprise et de la gestion des ressources humaines, l’optimisation de la relation client, par un marketing personnalisé et/ou prédictif, la monétisation des informations sur les clients, etc. Les domaines d’applications sont nombreux : la santé, les transports, les sciences, etc. On peut citer dans la santé des progrès en épidémiologie, en diagnostic et en précision des traitements([viii]). Dans le transport, le Big Data peut servir à optimiser l’utilisation des différents moyens de transport et à personnaliser l’expérience du voyageur([ix]).

Les données ont aussi conduit à l’émergence de nouveaux modèles d’affaires, mis en place notamment par les entreprises Google, Facebook, Amazon, Twitter, etc. Ces entreprises utilisent les données des utilisateurs pour le fonctionnement de leurs services, pour générer des revenus par la publicité ciblée([x]), souvent en revendant ces données sous la forme de profils mis aux enchères via des data brokers, et pour prévoir à l’aide d’algorithmes les intentions individuelles, ce que l’on va acheter ou ce que l’on va faire. L’explosion des données a conduit beaucoup d’entreprises, même en dehors du numérique, à ajouter le traitement de données à leurs activités traditionnelles([xi]) et à revisiter celles-ci en vue de les optimiser.

 Un impact environnemental et sociétal préoccupant

Au-delà de ses bénéfices réels ou escomptés, le Big Data pose différents problèmes. Les outils numériques ne relèvent pas que du « virtuel » : leurs conséquences sont bien réelles. Ainsi, leur impact environnemental croît de 6% par an : ils causent au moins 3,5 % des émissions mondiales de gaz à effet de serre (GES) et 4,2 % de la consommation mondiale d’énergie primaire en 2019([xii]). Un rapport de The Shift Project souligne d’ailleurs que 44 % des Français considèrent les ordinateurs et Internet comme une menace pour l’environnement.

Sur l’usage des données massives s’est construite une économie de l’attention, dans laquelle les entreprises profitent des données pour capter de plus en plus finement l’attention des utilisateurs, les exposer à plus de publicité et, de façon circulaire, collecter encore plus d’informations. Ce « nouveau modèle capitaliste », que certains qualifient de « capitalisme cognitif »([xiii]), pousse les entreprises du numérique à enfermer, d’une part, l’internaute dans des bulles de filtres([xiv]), qui confirment ses points de vue, confortent ses croyances et les sujets qui semblent l’intéresser, et à inciter, d’autre part, le consommateur à toujours consommer davantage sous l’effet de cette « industrie de l’influence », ce qui par rétroaction aggrave la problématique environnementale([xv]). Cette course à l’attention a aussi profondément transformé le journalisme. Aujourd’hui, l’intérêt des médias porte de plus en plus sur la vitesse de publication plutôt que sur la qualité de l’information([xvi]). D’un point de vue politique, le glissement vers une information pauvre et uniformisée qui cherche à attirer avant d’informer est une menace pour la démocratie. Celle-ci est également fragilisée par la surveillance de masse que permet le numérique, aggravée par les enjeux géopolitiques propres au Big Data, la domination des entreprises et des data-centers américains caractérisant la gouvernance des données dans un véritable capitalisme de surveillance([xvii]). Ce dernier peut se mettre au service d’un état, comme en témoigne le programme américain Prism qui, depuis 2007, permet aux États-Unis de récupérer dans le monde entier les milliards de données personnelles collectées par les entreprises. La Chine n’est pas en reste, n’hésitant pas à utiliser TikTok à des fins de surveillance, comme l’illustre l’exemple récent de l’espionnage de journalistes étrangers([xviii]).

L’ère du Big Data accroit également les inégalités liées à la transformation numérique. Selon Eszter Hargittai, une seconde fracture numérique est ainsi apparue([xix]) : si la première, liée à l’écart d’accès aux technologies numériques s’est réduite, la seconde, qui relève de la capacité à s’approprier les technologies numériques (en fonction du milieu social et du niveau d’éducation), se creuse. De plus, l’utilisation du Big Data peut renforcer des inégalités existantes du fait des biais des algorithmes dont les résultats reproduisent les biais des échantillons de données utilisés. Le logiciel de prédiction de la récidive utilisé par la justice américaine, Compas, a ainsi tendance à surestimer le risque pour les personnes noires.

 Le lien indirect entre explosion des données et surcharge informationnelle

Pour comprendre la relation entre explosion des données et surcharge informationnelle, il est nécessaire d’identifier les articulations entre les données, l’information, les connaissances et la sagesse. Ces concepts sont liés mais les frontières qui les séparent restent floues et appellent des précisions. Une donnée est une description élémentaire d’une réalité, qui, prise isolément, n’a pas ou quasiment pas de sens ; c’est un élément ou un ensemble d’éléments objectifs sur un fait. L’information est une série de données contextualisées dont on peut tirer une signification. En comprenant le sens de l’information puis en l’intégrant à notre système de savoirs et de valeurs elle acquiert le statut de connaissance. Enfin, des connaissances, on peut tirer la sagesse, c’est-à-dire des comportements conformes à une éthique. Albert Einstein écrivait ainsi que « la connaissance s’acquiert par l’expérience, tout le reste n’est que de l’information »([xx]) et T. S. Eliot se demandait « où est la sagesse que nous avons perdue dans la connaissance ? Où est la connaissance que nous avons perdue dans l’information ?»([xxi]). Les relations entre ces concepts peuvent être illustrées par l’exemple de la météorologie. Les mesures de température relevées chaque jour dans une station météo sont des données. Une courbe donnant l’évolution dans le temps de la température moyenne dans un lieu est une information. Le fait que la température sur Terre augmente en fonction de l’activité humaine est une connaissance. Moduler l’activité anthropique selon son impact sur le réchauffement climatique est de la sagesse. Le graphique ci-après modélise ces relations.

La pyramide DIKW

(data, information, knowledge, wisdom)

DIWK

Source : OPECST

La volumétrie d’information (trop d’informations à traiter par un individu ou une organisation dans un temps imparti entraine de la surcharge informationnelle), la surcharge cognitive (atteinte des limites des capacités cognitives des individus à traiter un volume d’information), enfin la surcharge de communication (une grande part de la surcharge d’information provient des nouveaux moyens de communication électronique : e-mails, forums de discussion en ligne, messageries instantanées, etc.) sont trois paramètres qui convergent vers la surcharge informationnelle, définie comme un concept tridimensionnel par Michel Kalika et d’autres chercheurs([xxii]).

 Difficultés liées à la surcharge informationnelle et mutations de nos structures cognitives

Comme le souligne un rapport du Centre d’analyse stratégique et de la Direction générale du travail, « La “surinformation” (ou infobésité) est l’un des plus grands problèmes à résoudre par les organisations pour les dix prochaines années »([xxiii]). La surcharge informationnelle est un concept récent qui décrit l’idée ancienne selon laquelle la capacité de traitement de l’information des êtres humains est limitée, à la fois en matière de quantité et de capacité de conservation d’informations sur une période donnée([xxiv]). Bien entendu, la réaction à cette surcharge informationnelle est inégale et dépend des individus car, comme le rappelle Michel Kalika, « nous ne sommes pas tous égaux face à la surcharge informationnelle »([xxv]). Plusieurs causes peuvent expliquer celle-ci qui serait, pour chacun, une conséquence de l’explosion de la communication, à travers la quantité de messages reçus et la quantité d’applications et de canaux de communication utilisés([xxvi]). Les technologies de l’information et de la communication (TIC) ont permis d’augmenter significativement ces quantités. La surcharge informationnelle est aussi encouragée par les principes régissant nos comportements sociaux : addiction à la communication, angoisse de rater une information (Fear of Missing Out ou FOMO, syndrome pouvant engendrer des dépressions, particulièrement présent chez les jeunes mais qui se généralise), mutations et instabilités propres au monde du travail([xxvii]), multitasking, disparition des frontières entre sphère professionnelle et sphère privée, gratuité apparente des communications électroniques, etc. En particulier, les e-mails semblent être, selon Caroline Sauvajol-Rialland, l’un des principaux outils de la surcharge informationnelle et communicationnelle car « le rythme des échanges est devenu trop rapide et incertain. La croissance du volume, exponentielle, rend de plus en plus difficiles la gestion et le traitement des courriels par les salariés »([xxviii]). Cette infobésité entraîne de nombreuses conséquences, dont les principales sont : au plan individuel, stress, anxiété, dépression, réduction de la créativité, épuisement professionnel ; au niveau des organisations, baisse de productivité, saturation, désorganisation ; et sur le plan sociétal, gaspillage d’énergie, empreinte environnementale, et carbone en particulier, considérable.

Une autre difficulté provient du mode de raisonnement utilisé pour traiter les données. Si les raisonnements par induction sont prometteurs et que, temporairement du moins, le raisonnement par déduction décline, ces deux raisonnements devraient cohabiter sans quoi le Big Data risque de conduire à la « mort de la théorie scientifique »([xxix]). Il convient également de faire attention à la dérive des usages de statistiques : les volumes de plus en plus massifs de données multiplient les occasions de réaliser des traitements apportant parfois faussement l’impression de capturer la vérité. Selon la formule de deux chercheurs, « les chiffres sont comme les gens. Si on les torture assez, on peut leur faire dire n’importe quoi »([xxx]). Ainsi que l’écrivait dans une sorte de mise en garde Alain Desrosières, « les données ne sont pas données »([xxxi]), elles sont construites et n’ont pas de signification en elles-mêmes, elles ne décrivent qu’une partie de ce qui se passe en réalité et s’accompagnent de très nombreux biais.

En outre, nos structures cognitives elles-mêmes pourraient bien être modifiées par cette surcharge informationnelle à l’ère de l’explosion des données : plus qu’une attraction temporaire de l’attention, nous courons le risque d’une dissolution durable de nos capacités à nous souvenir, à nous concentrer et à traiter l’information, les enfants étant particulièrement exposés à ces évolutions([xxxii]). Nous serions les victimes d’une civilisation dans laquelle la santé mentale est menacée à partir de plus de 30 minutes consécutives d’exposition aux réseaux sociaux et aux écrans d’Internet, une civilisation dans laquelle la durée d’attention sur un sujet serait réduite à quelques secondes, faisant de chacun un poisson rouge enfermé dans le bocal de son écran, ainsi que l’affirme Bruno Patino dans un livre important, d’où la question posée par Nicholas Carr, « Google nous rend-il tous idiots »([xxxiii]) ? Par ailleurs, plusieurs études neurologiques montrent les limites de nos capacités réelles au multitasking, soulignant de surcroît comment notre attention est de plus en plus facilement perturbée par des distractions extérieures([xxxiv]).

 Solutions technologiques et recommandations

À l’heure d’une sorte de « syndrome de Diogène numérique » où chaque personne, chaque organisation, stocke le plus de données possibles, les remèdes à cette « syllogomanie 2.0 » sont indispensables. La recherche de solutions technologiques pour prévenir et contenir l’explosion des données et la surcharge informationnelle doit se renforcer, notamment la recherche sur l’agrégation et la curation de données. Celle-ci consiste à sélectionner, éditer et partager les seuls contenus appropriés([xxxv]) : en sélectionnant plus efficacement les données pertinentes, il serait possible de limiter le volume de données conservées. De même, plusieurs projets sur les bases de données cherchent à effacer progressivement certaines données grâce à une technologie de « pourriture contrôlée »([xxxvi]). On peut aussi citer les « Personal Information Management Systems » (PIMS), technologies encore embryonnaires, qui pourraient permettre aux utilisateurs de gérer et de contrôler toutes leurs données personnelles. De manière générale, l’informatique appuyée sur le Big Data ouvre de grandes perspectives. Des avancées majeures sont ainsi attendues au cours des prochaines années pour améliorer les technologies numériques en termes de gestion et de traitement des données : progrès en matière d’architectures de calcul et de stockage, d’intégration et de curation des données, de modèles, de logiciels, d’algorithmes, d’intelligence artificielle, de dispositifs d’acquisition et de visualisation, ou encore de technologies quantiques([xxxvii]).

Mais la sobriété numérique est d’abord un combat culturel. C’est pourquoi la formation aux enjeux du numérique est essentielle. Il ne s’agit pas tant d’apprendre à utiliser ces outils qu’à comprendre leurs conséquences et la législation qui les encadre. Par exemple, en dépit du règlement général sur la protection des données (RGPD) qui encadre le traitement des données personnelles au sein de l’Union européenne, seuls 6 % des Français refusent les cookies sur Internet([xxxviii]). La législation sur la protection des données pourrait être renforcée ou, au moins, s’accompagner d’une plus grande pédagogie. Il conviendrait de promouvoir la sobriété numérique et de développer l’hygiène numérique à l’échelle individuelle et au niveau des organisations (entreprises et administrations), ce qui passerait par le nettoyage régulier de ses données (clean up days).

Enfin, l’ambition de la souveraineté numérique et de l’indépendance à l’égard des grandes entreprises du numérique requiert un débat public sur le monopole exercé par ces plateformes, le plus souvent américaines, ainsi que sur les algorithmes captant notre attention ou provoquant des bulles de filtre qui nous enferment. Cette ambition interroge la possibilité d’une gouvernance française et européenne des données et de leurs infrastructures. Plusieurs personnes auditionnées ont fait valoir que la solution ultime restait la déconnexion pure et simple([xxxix]), réflexe encore trop peu présent dans notre société.

Sites Internet de l’Office :

http://www.assemblee-nationale.fr/commissions/opecst-index.asp

http://www.senat.fr/opecst

[xxxix] Plusieurs personnes auditionnées, spécialistes des questions numériques, ont ainsi souligné cette perspective d’un recours à la déconnexion lors de leurs auditions et Ioana Manolescu a même rappelé pour sa part que « les enfants de Steve Jobs ont été éduqués sans ordinateur ». L'article L 2242-17 du code du travail, issu de la loi n° 2016-1088 du 8 août 2016 relative au travail, à la modernisation du dialogue social et à la sécurisation des parcours professionnels, a consacré le droit à la déconnexion. La question d’éventuelles obligations en matière de nettoyage des données reste ouverte tout comme reste en suspens le sujet des activités pour lesquelles il serait pertinent de réduire ou d’empêcher la production de données.

Personnes consultées

____________________________________________________________________________________________________________________________

Institutions

Académie des sciences

- M. Serge Abiteboul, chercheur à l’Institut national de recherche en sciences et technologies du numérique (Inria), ancien professeur de la Chaire d’informatique du Collège de France, membre de l’Académie des sciences et du Collège de l’Autorité de régulation des communications électroniques, des postes et de la distribution de la presse, ancien membre du Conseil national du numérique, ancien président du Conseil scientifique de la Société d’Informatique de France

Académie des technologies

- M. Gérard Roucairol, président honoraire de l’Académie des technologies, président du pôle numérique de l’Académie, ancien directeur scientifique du groupe Bull, ancien professeur à l’École Normale Supérieure ainsi qu’à l’Université d’Orsay

- M. Claude Le Pape-Gardeux, membre de l’Académie des technologies, membre du Conseil scientifique de l’Institut Mines-Télécom, ancien membre du Conseil scientifique du CNRS, ancien cadre dirigeant d’entreprise

Gouvernement

- Mme Laure Lucchesi, directrice d’Etalab, direction interministérielle du numérique, services du Premier ministre

- Mme Ioana Manolescu, directrice de recherche à l’Institut national de recherche en sciences et technologies du numérique (Inria) et à l’École Polytechnique, directrice scientifique du Lab IA, Etalab

- M. Paul-Antoine Chevalier, responsable du pôle exploitation de données du Lab IA, Etalab

Chercheurs

Centre national de la recherche scientifique (CNRS)

- M. Pierre-Éric Mounier-Kuhn, chercheur au CNRS, historien de l’informatique

Universités

- Mme Anastasia Ailamaki, informaticienne, ingénieure et professeure titulaire à l’École Polytechnique Fédérale de Lausanne (EPFL), cofondatrice de la startup Raw Labs, spécialisée dans les logiciels de gestion de données

- M. Mokrane Bouzeghoub, professeur émérite à l’université de Versailles, coordinateur d’actions scientifiques sur la gestion des données au sein de la mission à l’interdisciplinarité du CNRS (MITI)

- M. Pascal Griset, professeur d’histoire contemporaine à l’Université Paris-Sorbonne, historien de l’innovation, président du comité pour l’histoire de l’Institut national de la santé et de la recherche médicale (Inserm)

- M. Francis Jaureguiberry, professeur de sociologie à l’Université de Pau, membre du laboratoire Passages, coordinateur du projet « DEconnexion Volontaire des Technologies de l’Information et de la Communication » (DEVOTIC)

- M. Michel Kalika, professeur émérite de l’Institut d’administration des entreprises de Lyon (IAE), président du Business Science Institute et de l’Université Jean-Moulin-Lyon-II, ancien directeur à l’École de management (EM) Strasbourg, ancien professeur à l’Université Paris Dauphine

- Mme Caroline Sauvajol-Rialland, maîtresse de conférences à l’Institut d’études politiques de Paris (Sciences Po), à l’Institut international du commerce et du développement (ICD) et à l’Université catholique de Louvain

- Mme Valérie Schafer, professeure d’histoire européenne contemporaine à l’Université du Luxembourg, historienne de l’informatique

- M. Bruno Strasser, professeur à l’Université de Genève et à Yale, directeur du Bioscope, Laboratoire des sciences de la vie et des sciences biomédicales de l’Université de Genève

Entreprises

Orange

- Mme Valérie Peugeot, chargée de la prospective chez Orange, maîtresse de conférences à l’Institut d’études politiques de Paris (Sciences Po), membre du Collège de la Commission nationale de l’informatique et des libertés (CNIL) et ancienne vice-présidente du Conseil national du numérique (CNNum)

Shopify

- Mme Alizé Papp, data scientist

Dataiku

- M. Léo Deyfus-Schmidt, vice-président de la recherche

- M. Rémi Meunier, vice-président secteur public

- M. Vivien Tran Thien, directeur intelligence artificielle

Associations

Shift project

- M. Hugues Ferreboeuf, directeur de Virtus Management, polytechnicien, ingénieur du corps des Mines, responsable des questions de sobriété numérique au Shift project