LIVRE-EXAMEN : À QUOI RÊVENT LES ALGORITHMES ? NOS VIES À L’ÈRE DES BIG DATA

par Alexis MARTINET | BLE, JUIN 2017, Technologies

De Dominique CARDON. Paris, Seuil “La République des idées”, 2015, 112 pages

Comme les GPS dans les véhicules, les algorithmes se sont glissés silencieusement dans nos vies. Ils ne nous imposent pas la destination. Ils ne choisissent pas ce qui nous intéresse. Nous leur donnons la destination et ils nous demandent de suivre “leur” route.

Les algorithmes donnent aux ordinateurs “des instructions mathématiques pour trier, traiter, agréger et représenter les informations”. Cela se fait à partir de données toujours plus inattendues : déplacements, tickets de caisse, clics sur Internet, consommation électronique, temps de lecture d’un livre sur les tablettes électroniques, nombre de pas enregistrés par un podomètre. “Les algorithmes chiffrent le monde, le classent et prédisent notre avenir.”

La société Amazon voudrait aujourd’hui nous proposer un monde dans lequel elle pourrait nous envoyer des livres avant même que nous ne les ayons commandés. Sur base de recoupages de données personnelles et d’algorithmes, l’entreprise pense être à même de savoir ce que nous voudrions avant que nous en ayons nous-mêmes eu le désir.

DES CHIFFRES ET DES LETTRES

Un torrent de données se déverse aujourd’hui sur Internet. Chaque jour, 3,3 milliards de requêtes sont effectuées sur les 30.000 milliards de pages indexées par Google ; plus de 350 millions de photos et 4,5 milliards de likes sont distribués sur Facebook ; 144 milliards d’e-mails sont échangés par 3 milliards d’internautes (données 2015). Si l’on numérisait toutes les communications et les écrits depuis l’aube de l’humanité jusqu’en 2003, il faudrait 5 milliards de gigabits pour les mettre en mémoire. Aujourd’hui, nous générons ce volume d’informations numériques en deux jours !

Ces données sont utilisées comme les ingrédients d’une recette de cuisine nommée “algorithme”. À très grande vitesse, ces calculateurs hiérarchisent l’information, devinent ce qui nous intéresse, sélectionnent les biens que nous préférons et s’efforcent de nous suppléer dans de nombreuses tâches. Nous les fabriquons, mais en retour “ils nous construisent”.

Pour mieux comprendre ces algorithmes et ne pas se laisser ébouillanter par la soupe des big data, l’auteur propose de distinguer quatre façons de cuisiner : “à côté”, “au-dessus”, “à l’intérieur” et “en-dessous” du web.

À CÔTÉ DU WEB – POPULARITÉ

C’est l’étude, par algorithmes, de l’audience des sites, de leur popularité. Il s’agit du nombre de visiteurs sur un temps donné. “La mesure d’audience mime le vote démocratique : chaque internaute qui clique dispose d’une voix et d’une seule (grâce à l’adresse IP de son ordinateur), et ceux qui dominent le classement sont ceux qui ont attiré l’attention du plus grand nombre.”

Cette mesure est la première dans l’histoire du web. Aujourd’hui, les données qu’elle engrange servent moins à fabriquer le “public” qu’à mesurer des “parts de marché”. En effet, la mesure ne dit rien sur la personnalité de l’internaute et elle peut être gonflée artificiellement par des robots en ligne (“bots”).

AU-DESSUS DU WEB – AUTORITÉ

Avant l’arrivée de Google (1998), les premiers moteurs de recherche étaient lexicaux : ils classaient mieux les sites qui contenaient le plus de fois le mot-clé recherché. Google a innové en proposant “de mesurer la force sociale de la page dans la structure du web”.

L’architecture particulière du réseau Internet fait du web “un tissu de textes se citant les uns les autres à travers des liens hypertextes. L’algorithme du moteur de recherche ordonne les informations en considérant qu’un site qui reçoit d’un autre un lien reçoit en même temps un témoignage de reconnaissance qui lui donne de l’autorité”.

Cette vision du monde centralise l’autorité du web : “Les sites les mieux classés sont ceux qui ont reçu le plus de liens hypertextes venant de sites qui ont, eux-mêmes, reçu le plus de liens hypertextes des autres.”

Ce système est facilement “contaminé” par les stratégies des titulaires de sites qui créeront de fausses pages de liens hypertextes (sites fantômes) pour gonfler artificiellement leur “autorité”. Mais Google et les autres moteurs de recherche ne cessent de s’adapter et de complexifier leurs algorithmes, quitte à les garder secrets afin de décourager ceux qui essaient de tromper leur classement. Toutefois, ce jeu du chat et de la souris entre les webmestres et les concepteurs de l’algorithme reste sans fin.

À l’INTÉRIEUR DU WEB – RÉPUTATION

Ces calculs, plus récents dans l’histoire du web, ont pour symbole le like (Facebook, Twitter, Instagram, etc.) : pointe avancée d’un ensemble beaucoup plus large et disparate d’indicateurs mesurant la taille des réseaux personnels par le nombre d’amis, la réputation acquise en fonction du nombre d’informations publiées que d’autres internautes ont ensuite commentées ou partagées, le nombre de fois où le nom de l’internaute a été prononcé dans la conversation des autres, etc.

“Les métriques de réputation mesurent le pouvoir qu’a l’internaute de voir les autres relayer les messages qu’il émet sur le réseau. L’influence procède toujours d’un ratio entre le nombre de personnes que l’on connaît et le nombre de personnes dont on est connu. Elle mesure la force sociale d’un nom, d’un portrait ou d’une image.”

Cette mesure de réputation est directement perçue par les acteurs eux-mêmes et leur entourage. De ce fait, ils l’influencent activement, hors du cadre de la neutralité des calculs, pour élargir cette réputation (en ajoutant des photos, commentant, retweetant…) ou au contraire, pour tenter de réduire leur présence sur le réseau.

AU-DESSOUS DU WEB – PRÉDICTION

Derniers développements du web : voir venir les actions en ligne, les prédire sur base de “traces” récoltées notamment grâce aux cookies (que vous pouvez refuser lorsque vous naviguez). Il s’agit de calculer le profil de l’utilisateur à partir de ses activités. “L’algorithme apprend en comparant un profil à ceux d’autres internautes qui ont effectué la même action que lui. De façon probabiliste, il soupçonne qu’une

personne pourrait faire telle ou telle chose qu’elle n’a pas encore faite, parce que celles qui lui ressemblent l’ont, elles, déjà faite. Le futur de l’internaute est prédit par le passé de ceux qui lui ressemblent.”

Les algorithmes prédictifs ne donnent pas une réponse à ce que les gens disent vouloir faire, mais à ce qu’ils font sans vouloir se le dire. “La plupart du temps, les prédictions algorithmiques ne font que confirmer, en leur donnant une amplitude plus ou moins grande, des lois sociales bien connues.”

Les assureurs, par exemple, “auraient constaté dans les données d’achat de leurs clients que ceux qui achetaient des feutres à placer sous les pieds de table et de chaise, pour ne pas rayer leur parquet, avaient un comportement automobile très prudent et qu’ils pouvaient sans risque leur proposer une réduction de prime”.

Un autre usage courant de ce type d’algorithmes est celui de la publicité ciblée qui vous est envoyée/affichée lorsqu’un autre utilisateur a acheté un second produit après un ou plusieurs achats similaires aux vôtres.

Outre les questions éthiques sur la vie privée et le consentement des personnes, se posent ici les questions relatives au classement parfois enfermant des individus dans des bulles d’intérêts. Si ces bulles peuvent servir de sourdines consenties à certains styles musicaux sur Spotify, elles peuvent également mettre à mal certaines formes du débat démocratique en taisant toutes voix dissonantes au profil politique automatiquement calculé.

L’auteur interroge également les résultats des calculateurs quand ils figent les pratiques et les structures sociales. La neutralité des algorithmes reproduit parfois certaines inégalités dans la société. Ainsi, les individus catégorisés (par le nom, les habitudes alimentaires, religieuses ou autres) comme appartenant à une certaine ethnie sujette à des discriminations carcérales, à l’embauche ou au logement, obtiendront des résultats qui pencheront plus vers les annonces pour des avocats pénalistes que pour des universités prestigieuses ou des villas huppées.

UNE LIBERTÉ D’ALGORITHMES ?

Le fonctionnement des algorithmes est un secret bien gardé. “Plus les individus sont transparents, plus ceux qui les observent sont opaques. Les grands acteurs du web protègent jalousement la propriété commerciale de la recette de leurs algorithmes, au prétexte que la rendre publique faciliterait la vie de ceux qui essaient de les truquer.”

“Les coulisses du marché de la donnée publicitaire constituent un monde opaque qui entretient une discrétion délibérée, afin de ne pas susciter l’hostilité du public. Les prospères entreprises qui dominent cet univers sont inconnues du grand public (Axicom, BlueKai, eXelate, Rapleaf, Weborama). Ces courtiers de données (data brokers) investissent désormais des places de marchés (ad exchange) pour s’échanger les données des utilisateurs. Ils compilent les informations aux franges de la légalité, en profitant de la mansuétude des législations. Ils blanchissent leurs activités en se drapant derrière le consentement qu’ils ont extorqué à l’internaute à travers l’acceptation de Conditions générales d’utilisation (CGU) illisibles et jamais lues.”

La guerre du traçage vient tout juste de commencer. Avec l’augmentation de l’information du public et la sensibilité de plus en plus grande aux questions de surveillance, consécutives aux révélations d’Edward Snowden, “il devient urgent que les régulateurs imposent des règles beaucoup plus dures et exigent des internautes un consentement vraiment éclairé”.

Pour conclure, nous dirons que, quelle que soit notre position dans le débat (rêve ou cauchemar des algorithmes), ce petit livre de 112 pages nous éclaire, offre une structure et des balises. Ainsi, en reprenant les mots mêmes de l’auteur : “Pour vraiment critiquer une dynamique qui possède de si puissants moteurs économiques et culturels, il est nécessaire d’entrer dans les calculs, d’explorer leurs rouages et d’identifier leurs visions du monde.”

L’auteur : Dominique Cardon est sociologue, professeur à Sciences Po/Medialab, spécialiste des transformations contemporaines de l’espace public. Avec son précédent livre La Démocratie Internet paru en 2010 aux éditions du Seuil ainsi que de nombreux articles et interventions publiques autour notamment des infrastructures de médiation offertes par les nouvelles technologies, il est aujourd’hui considéré comme l’un des meilleurs spécialistes du numérique et de l’Internet.

Dans la même catégorie