On ne présente plus ChatGPT, tant ce service en ligne a fait le buzz en un éclair et est devenu la nouvelle star technologique des médias et des réseaux sociaux.
Depuis, on nous annonce un monde nouveau, où le moindre de nos désirs sera exaucé littéralement dans la seconde.
Tel un génie sorti de sa lampe, ChatGPT nous invite : « Demandez et vous recevrez ! »
Vous devez rédiger un texte sur un sujet quelconque, histoire, géographie, politique, culture ? ChatGPT l’écrira pour vous.
Un avis de droit ? Le voici.
Un logiciel complexe ? Le voilà.
Quoi d’autre ? Ah oui, il vous faut une illustration, disons dans le style de H.R. Giger, pour la couverture de votre prochain roman; GPT la produira en un instant. Et si vous demandez gentiment, il écrira même votre roman dans la foulée. Il suffira de lui indiquer quelques éléments sur les personnages et le contexte. Idem pour votre prochain tube de l’été : demandez à GPT de vous écrire une chanson, disons à la manière de Ed Sheeran, et vous voilà nominé aux Emmy Awards.
Bien sûr, chaque médaille a son revers : adieu journalistes, avocats, écrivains, programmeurs, musiciens, graphistes ! Vos compétences si durement acquises sont désormais obsolètes. Vous êtes obsolètes, tant votre lenteur est devenue un embarras !
Le grand remplacement est pour demain, ce soir même, qui sait.
Même certains médias habituellement prudents nous expliquent que c’est le début de la fin et que nous avançons à grands pas vers l’avènement de la singularité technologique. Eh oui, pendant que vous dormez paisiblement, GPT assimile en permanence de nouvelles connaissances, se dote progressivement d’une intelligence générale, au même titre que les humains, et sera bientôt capable d’une empathie et d’une créativité largement supérieure à la nôtre, plus rapide, plus pertinente.
Alors il ne nous restera, à nous pauvres humains, que nos yeux remplis de larmes pour admirer notre élève prendre son envol et nous dépasser inexorablement.
Retour sur terre
Ah ce plaisir masochiste des humains qui adorent jouer à se faire peur.
Toute cette agitation autour de ChatGPT est révélatrice d’un paradoxe : les nouvelles technologies inondent nos vies et nos conversations, mais tout se passe comme si la compréhension de leur fonctionnement ne revêtait aucun intérêt lorsqu’il s’agit d’évaluer leur potentiel, leur limite et les dangers qu’elles portent en elles.
D’une certaine façon, cette manière d’appréhender l’intelligence artificielle est en phase avec l’esprit du temps, où le ressenti prévaut sur la raison et où aucun argument aussi rationnel soit-il ne saurait remettre en question le ressenti, en l’occurrence la fascination et la peur.
Pourtant, avant de tirer des plans sur la comète et prédire l’avènement d’un monde nouveau, voire la fin de l’humanité, peut-être vaut-il la peine se demander comment fonctionne réellement ChatGPT.
Or contrairement à ce qu’on pourrait penser à partir de la couverture médiatique de cette technologie, la compréhension de son fonctionnement, et donc de ses possibilités et ses limites, est à la portée de la plupart d’entre nous. Et comme nous allons le voir, le génie (si génie il y a) au cœur de ChatGPT n’est pas forcément là où on l’attend.
Comment ça marche ?
ChatGPT se présente sous la forme d’un agent conversationnel artificiel (ChatBot), c’est-à-dire que l’on interagit avec cet agent comme on le ferait avec un humain à travers n’importe quelle application de discussion (chat), telle que Apple ou Google Messages, Whatsapp, Snapchat, etc.
Ce qui frappe immédiatement lorsque vous dialoguez avec ChatGPT, c’est la fluidité de sa conversation et sa capacité à tenir compte du contexte de la discussion. Vous pouvez par exemple lui demander de préciser une réponse, ou au contraire de généraliser son propos.
Le problème, c’est que cette fluidité et cette sensibilité au contexte peut aisément nous donner l’illusion que ChatGPT sait de quoi il parle. Or il n’en est rien, et voici pourquoi.
De manière très schématique, on peut voir ChatGPT comme une version sur-vitaminée de l’algorithme qui suggère le prochain mot d’une phrase que vous êtes en train d’écrire, lorsque vous utilisez une des applications de discussion mentionnées précédemment (Whatsapp, Snapchat, etc.).
Autrement dit, lorsqu’il s’agit de générer une réponse, ChatGPT va produire des phrases dont l’enchainement de mots est le plus probable, en se basant sur un grand nombre de textes qu’on lui a fait préalablement ingurgiter et analyser, et bien sûr en se basant sur le contexte de votre discussion avec lui jusque-là.
Là où ChatGPT diffère de l’algorithme suggérant le prochain mot du message que vous écrivez, c’est essentiellement par :
- la taille du contexte pris en compte pour sa réponse,
- le volume de texte analysé pour son entrainement initial,
- le nombre de paramètres contrôlant la génération de ses réponses.
Ainsi, lorsque GPT-3 discute avec vous, il garde environ 3’000 mots en mémoire, ce qui lui permet de tenir compte de vos précédents échanges avec lui dans ses réponses. Le nombre paramètres du modèle de langage sur lequel il repose est quant à lui vertigineux : 175 milliards, ce qui nécessite 800 Go de stockage.
Finalement, l’entrainement du modèle de langage de ChatGPT s’est effectué sur un corpus de textes contenant environ 375 milliards de mots, provenant de diverses sources parmi lesquels Common Crawls, qui archive l’Internet, et Wikipedia, la fameuse encyclopédie collaborative en ligne. L’entrainement du modèle a été effectué sur une version de ce corpus de textes figée au mois de septembre 2021. Autrement dit, toute modification de ces sources postérieure à cette date ne fait pas partie des informations accessibles à GPT-3. C’est la raison pour laquelle ChatGPT ignore que Elizabeth II nous a quittés. Si l’on prend GPT-4, les nombres mentionnés ci-dessus sont encore plus vertigineux, mais le principe de base reste le même.
De Elisabeth Holmes à ChatGPT
D’une certaine manière, on peut dire que ChatGPT se comporte comme un interlocuteur qui s’appliquerait en permanence à terminer vos phrases ou à entretenir la conversation sur un sujet donné, en régurgitant plus ou moins fidèlement des propos qu’il a lus sur le sujet, sans les comprendre. Un exemple extrême de ce modèle probabiliste d’interactions se retrouve dans le jeu des dictons. Si je vous dis par exemple « Jamais deux… », vous me répondrez « …sans trois ». Si je vous dis « Tel père… », vous me répondrez « … tel fils ».
En revanche, il est essentiel de comprendre qu’il s’agit d’un modèle purement linguistique : pas de déduction, ni de raisonnement logique derrière les réponses de ChatGPT. Il peut par exemple affirmer des choses fausses et même contradictoires dans la même conversation, tant que ses réponses sont conformes au modèle probabiliste sous-jacent. Pour le dire autrement, ChatGPT n’a aucune notion de ce qui est vrai ou faux, uniquement de ce qui probable par rapport au corpus de textes sur lequel on l’a entrainé et du contexte de votre conversation avec lui.
Si ChatGPT était humain, on pourrait dire de lui qu’il est un imposteur, au même titre que Jean-Claude Romand, cet homme qui est parvenu à se faire passer pour un médecin et chercheur à l’OMS auprès de ses proches pendant dix-huit ans. Pour bien saisir la capacité d’un discours vraisemblable à nous faire croire à la compétence de notre interlocuteur, rappelons que lors d’un dîner chez un ami médecin, un convive cardiologue ayant discuté avec Romand pendant la soirée dira de lui à l’issu de ce dîner : « À côté de gens comme lui, on se sent tout petit. »
L’affaire de fraude pour laquelle Elisabeth Holmes, fondatrice de Theranos, a été condamnée à 11 ans de prison nous offre un autre exemple de la confusion qui peut exister entre vraisemblance et vérité. Là encore, le vernis scientifique acquis par Elisabeth Holmes au cours de ses deux années d’étude à l’Université de Stanford lui a permis de fabriquer un discours plausible autour de la possibilité d’effectuer une batterie de tests sanguins à partir d’une seule goutte de sang prélevée au bout d’un doigt.
Sur la base de ce discours, Holmes a réussi à convaincre un nombre impressionnant de personnalités à se joindre à elle, soit en tant qu’investisseurs (Rupert Murdoch, Larry Ellison), soit en tant que membre du conseil d’administration de Theranos (Henry Kissinger, George Shultz).
Pourtant, dès le début, certains ne s’y sont pas trompés.
Ainsi, de nombreux experts de laboratoires médicaux étaient sceptiques face aux promesses d’Elisabeth Holmes, du fait que certaines grandes molécules, telles que les protéines et les lipides, ne sont pas présentes en concentrations uniformes dans l’ensemble de notre corps. De ce fait, le sang prélevé au bout d’un doigt n’est pas le même que celui prélevé directement dans une veine. En mai 2016, Warren Buffett avait d’ailleurs critiqué Theranos pour avoir essentiellement nommé à son conseil d’administration des dirigeants politiques et militaires, plutôt que des experts en tests sanguins.
Et lorsqu’en septembre 2018 Theranos a finalement mis la clé sous la porte, tout le monde a dû se rendre à l’évidence : vérité et vraisemblance recouvrent des réalités très différentes.
La forme et le fond
Selon une idée reçue assez répandue, ChatGPT serait en permanence en train d’apprendre et donc d’affiner ses « connaissances ».
Là encore, il n’en est rien et ce pour une excellente raison.
En effet, si vous laissez un agent conversationnel se nourrir de ce qu’il trouve sur Internet, en particulier de ses conversations avec les internautes, il ne tardera pas à devenir raciste, insultant et colporteur de toutes sortes de théories complotistes. C’est précisément ce qui s’est produit en 2016 lorsque Microsoft a branché son agent conversationnel artificiel baptisé Tay sur Twitter.
Les ambitions et les espoirs de Microsoft était pourtant considérables : plus Tay allait interagir avec les internautes via Twitter, plus elle deviendrait intelligente et pertinente. La réalité fut toute autre : en moins de 24 heures, Tay se transforma en un troll haineux, raciste et misogyne, affirmant par exemple « Putain, je déteste les féministes ! » ou encore « Hitler avait raison, je déteste les juifs ! »
L’expérience fut si désastreuse que Microsoft débrancha définitivement Tay à peine deux jours après son lancement et présenta ses excuses pour les tweets litigieux. Encore une fois, rien d’étonnant : un agent conversationnel artificiel ne fait que régurgiter les propos les plus probables dans l’ensemble de textes sur lequel il est entraîné, ici les messages publiés sur Twitter. Or Twitter, et plus largement Internet, sont connus pour charrier des flots de messages haineux et orduriers.
Mais alors, comment ChatGPT fait-il pour résister à ce genre de dérives et produire des réponses souvent raisonnables, voire correctes ?
La réponse est d’une banalité confondante : ce sont des humains, beaucoup humains en fait, payés moins de $2/heure, qui ont manuellement nettoyé les données sur lesquelles ChatGPT a été entrainé.
D’une certaine façon, ChatGPT est comme un très jeune enfant qui répèterait ce qu’il entend à la maison, sans comprendre ce qu’il dit. Si ses parents sont racistes et complotistes, ses propos seront racistes et complotistes. Si ses parents sont humanistes et raisonnables, ses propos le seront aussi.
Or c’est bien là que réside l’ingéniosité, qui confine à la roublardise, des concepteurs de ChatGPT : en entrainant leur agent conversationnel sur des données nettoyées des éléments les plus outranciers et douteux, ce dernier ne produit la plupart du temps que des propos raisonnables, voire correctes.
Le revers de la médaille, c’est qu’il est impossible à ChatGPT d’apprendre sans être strictement encadré par des humains garants de l’orthodoxie de ses sources, sous peine des mêmes dérives que Tay, son injurieux confrère de chez Microsoft. C’est également la raison pour laquelle les « connaissances » de GPT-3 ne s’étendent pas au-delà de septembre 2021.
Au final, si ChatGPT ne dit pas trop de bêtises, même s’il en dit toutefois régulièrement, avec le même aplomb qu’un arracheur de dent, ce n’est pas parce qu’il est capable de distinguer le vrai du faux, mais simplement parce qu’on ne l’a entrainé que sur données scrupuleusement contrôlées. Ainsi, ChatGPT ne sait pas que la terre est ronde : il a juste été entrainé sur un corpus de textes ne contenant aucune phrase du type « la terre est plate ». Par conséquent, il existe une probabilité nulle qu’il termine la phrase « la terre est… » par l’adjectif « plate ».
L’étincelle qui… fait déborder le vase
Pour bien saisir la différence entre génération probabiliste de langage naturel et compréhension sémantique, reprenons l’exemple des dictons et supposons que vous ayons entrainé ChatGPT sur l’ensemble de tous les dictons de la langue française.
Après cet apprentissage, si vous lui dites « c’est la goutte qui a… », il vous répondra « …fait déborder le vase », tandis que si vous lui dites « c’est l’étincelle qui a… », il vous répondra « …mis le feu aux poudres ». Pour autant, ChatGPT n’aura aucune notion de ce qu’est une étincelle ou une goutte, encore moins de la signification de ces métaphores.
A contrario, n’importe quel humain est en mesure de comprendre le sens (et l’humour) des deux dictons littéralement improbables suivants : « c’est la goutte qui a mis le feu aux poudres » et « c’est l’étincelle qui a fait déborder le vase », quand bien même il ne les aurait jamais entendus auparavant.
Derrière cette compréhension par une intelligence humaine, plusieurs niveaux sémantiques s’entremêlent. Tout d’abord, nous savons qu’une étincelle peut faire exploser de la poudre et qu’une goutte supplémentaire fera fatalement déborder un vase rempli à ras bord.
Ensuite, nous comprenons que ces deux dictons expriment métaphoriquement le fait qu’il suffit parfois d’un élément en apparence insignifiant (une goutte, une étincelle) pour déclencher un résultat autrement plus signifiant (le feu ou le débordement). Il existe bien sûr une nuance entre ces deux dictons, puisque celui de la goutte contient en plus l’idée d’une accumulation préalable à l’avènement de la catastrophe.
Finalement, en entrelaçant ces deux expressions, nous comprenons que le sens métaphorique n’a pas fondamentalement changé mais qu’on y a simplement ajouté une pointe d’humour absurde.
Rien de tout cela chez ChatGPT, à moins bien sûr que dans sa prochaine version, il ait été entrainé sur un corpus de texte contenant l’article que vous êtes en train de lire à l’instant. Et même dans ce cas, s’il se trouve alors capable de produire la phrase « c’est la goutte qui a mis le feu aux poudres », cela sera uniquement dû au fait que cette suite de mots sera devenue probable dans un certain contexte.
Qu’est-ce que cela dit de nous ?
Outre le fait d’avoir entrainé ChatGPT sur des données dont l’orthodoxie a été strictement contrôlée par des humains (méthodiquement exploités), l’autre innovation de ChatGPT est d’avoir été mis à disposition du grand public. En effet, des systèmes similaires existaient déjà dans un certain nombre de laboratoires de recherche en intelligence artificielle à travers le monde, mais ces systèmes n’étaient accessibles qu’aux seuls spécialistes du domaine.
Face à cette mise en accès publique, une question s’impose : que dit de nous la sidération qui a accompagné le lancement de ChatGPT et la confusion qui s’en est suivie autour des notions d’intelligence, de créativité et même d’empathie ?
Pour tenter de répondre à cette question, rappelons-nous d’abord que l’informatique se définit comme l’automatisation du traitement de l’information par des machines, et que l’intelligence artificielle n’échappe pas à cette définition. De plus, rappelons-nous la définition qu’a donné Jean Piaget de l’intelligence humaine : « L’intelligence, ce n’est pas ce que l’on sait mais ce que l’on fait quand on ne sait pas. »
Mais d’où vient alors que nous confondions des notions aussi éloignées que l’intelligence humaine et la production automatique de textes sur une base statistique et algorithmique ?
Une réponse possible tient peut-être au fait que dans de nombreuses situations, nous nous comportons comme des automates qui reproduisent simplement, avec des variations mineures, des discours et des comportements normés et donc prévisibles.
La question est donc moins de savoir si des automates sont (ou serons un jour) capables de se comporter comme des humains, mais dans quelle mesure les humains de comportent comme des automates dans de nombreuses situations.
Finalement, nous mobilisons sans doute notre intelligence, notre empathie et notre créativité bien moins souvent que nous ne l’imaginons.
Dans tous les domaines, y compris ceux où la créativité est sensée régner en maitre, comme la recherche scientifique ou l’art, le conformisme s’est installé durablement, car il augmente significativement la probabilité de produire des résultats reconnus comme ayant de la valeur par le plus grand nombre.
Ainsi, lorsqu’un film ou une série en rupture avec les codes du genre remporte un grand succès, une avalanche de films et de séries similaires sont produits au cours des années qui suivent. Et ce qui était initialement hors-norme devient progressivement la nouvelle norme.
De même, la recherche n’a jamais été aussi prolifique en articles scientifiques que ces vingt dernières années, en particulier dans le monde académique, mais la plupart des chercheurs le savent bien, si vous voulez publier rapidement, mieux vaut écrire un n-ième article sur un sujet en vogue que prendre le risque de lancer une idée trop originale. Ceci est particulièrement vrai pour les chercheurs en début de carrière.
Au point où certains chercheurs se réjouissent d’ores et déjà (plus ou moins ouvertement) de pouvoir déléguer à ChatGPT la génération automatique de portions entières de leurs prochains articles scientifiques.
Où cela va-t-il nous mener ?
Si l’intelligence artificielle constitue effectivement un risque pour l’humanité, il ne se trouve pas dans le grand remplacement des humains par les machines. Il y a fort à parier en effet qu’à court et moyen terme, les humains ne seront pas remplacés par des machines intelligentes, mais par d’autres humains, en nettement plus petit nombre, sachant utiliser intelligemment des outils comme ChatGPT. Par conséquent, le vrai danger se trouve probablement dans la disparition, ou du moins la diminution significative, chez un grand nombre d’humains, de leur capacité à construire leur propre vision du monde, à l’exprimer de manière articulée, et bien sûr à faire appel à leur créativité pour le faire évoluer.
Prenons quelques exemples.
Si demain, la plupart des graphistes changent de métier et l’écrasante majorité des images publiées sur Internet est générée par des intelligences artificielles sur la base des productions graphiques produites jusque-là par des humains, il arrivera fatalement un moment où ces intelligences artificielles ré-ingurgiteront leur propres productions et générerons ad nauseam des variantes insipides de ce qui existe déjà.
Or tout comme les textes produits par ChatGPT, les images générées par des intelligences artificielles ne sont in fine que le résultat d’une moyenne statistique calculée à partir de certains paramètres, sur la base de ce qui est le plus désirable par la majorité des utilisateurs. Autrement dit, ces intelligences artificielles peuvent certes produire un très grand nombre de variations à partir d’un ensemble d’images, mais lorsque la majeure partie de cet ensemble sera constituée d’images elles-mêmes générées par ces intelligences artificielles, le système finira par tourner en rond et se mordre la queue.
Comme nous l’avons vu, cette tendance au radotage existe également lorsque nous produisons nous-même du contenu artistique ou scientifique, en raison de notre besoin de reconnaissance par le public ou par nos pairs. Heureusement, de temps à autre apparaissent des productions authentiquement originales, permettant ainsi aux diverses discipline artistiques ou scientifiques de progresser.
Avec l’arrivée d’outils comme ChatGPT en revanche, ce radotage risque de radicalement changer d’échelle, passant de l’artisanat à la production industrielle de contenus redondants.
Or la théorie de l’information de Shannon nous enseigne que lorsque tout n’est plus que redondance, il n’y a plus d’information : si nous ne faisons plus que ressasser ce que nous savons déjà pour l’avoir exprimé maintes et maintes fois, nous n’apprenons rien.
Ainsi, dès lors que la plupart des productions littéraires, graphiques, cinématographiques, ou même scientifiques, ne seraient que le fruit d’une reconfiguration statistique de contenus existants, la créativité humaine risquerait à terme de subir un sacré coup de frein.
On peut bien sûr objecter qu’une solution à ce problème pourrait consister à régulièrement injecter un peu d’aléatoire dans le processus de génération automatique de contenus, mais là encore, il s’agit d’une simplification grossière de la manière dont notre intelligence humaine fait avancer l’art et la science.
En musique, peut-on sérieusement croire que le romantisme est une variation aléatoire du classicisme ? Et on est en droit de se poser la même question de la peinture impressionniste par rapport à la peinture dite réaliste, qui la précède historiquement.
Les révolutions artistiques et scientifiques ne naissent pas d’une injection hasardeuse d’idées ou de concepts aléatoires, mais au contraire d’une compréhension profonde du monde par les artistes et les scientifiques qui sont à l’origine de ces révolutions.
De plus, si la créativité est effectivement le processus consistant à avoir des idées originales qui ont de la valeur, comme la définit Ken Robinson, la question centrale est donc de savoir qui détermine de ce qui a de la valeur et sur quelle base ? Là encore, seule une compréhension profonde du monde, et des disciplines où notre créativité s’exerce, permet de trancher cette question.
Un air de déjà-vu ?
Bien que les espoirs et les peurs engendrés par ChatGPT puissent nous sembler sans précédent, en réalité, à chaque avancée significative de l’informatique, nous revisitons les mêmes mythes et les mêmes fantasmes.
Lorsque les premières calculatrices électroniques sont devenues accessibles au grand public, on s’est inquiété de savoir si on devait laisser les jeunes enfants les utiliser. Fallait-il encore enseigner les règles de base du calcul, comme les propriétés de commutativité ou d’associativité de certaines opérations arithmétiques ?
Les réponses à ces questions furent nuancées, mais dans les grandes lignes, on décida avec raison que les calculatrices étaient des outils fabuleux, pour qui savait calculer et avait assimilé les bases de l’arithmétique. Par conséquent, on continua à enseigner les principes du calcul, même si l’usage des calculatrices fut admis à partir d’un certain niveau d’étude.
Cette approche reposait sur le bon sens : comment notre système éducatif pouvait-il en effet former des personnes capables de faire progresser nos connaissances en mathématiques, ou en toutes autres sciences utilisant les mathématiques comme langage, si nous remplacions la compréhension de ses principes de base par la seule aptitude à appuyer sur des boutons ?
Plus récemment a contrario, pendant la période du COVID, on a pu constater à quel point la maitrise des outils numériques par les soi-disant « natifs du numérique » (digital natives) était un mythe. Contrairement à l’usage de la calculatrice, on était parti du principe depuis plusieurs années qu’il suffisait aux natifs du numérique d’avoir été exposés aux outils informatiques depuis leur plus jeune âge, pour qu’ils acquièrent une compréhension solide et approfondie des principes fondamentaux de l’informatique.
Or on s’est aperçu que les natifs du numérique n’avaient en réalité développé que des connaissances contingentes et superficielles, essentiellement liées à l’usage de certains outils spécifiques. Par exemple, de nombreux jeunes aujourd’hui n’ont aucune notion de la manière dont les données sont stockées, au point où les notions de fichier, de disque ou de serveur de stockages leur sont le plus souvent étrangères.
Un bon serviteur mais un mauvais maître
Comme tous les outils, l’intelligence artificielle en général et ChatGTP en particulier sont de fabuleux serviteurs pour qui sait les utiliser, mais de bien mauvais maîtres pour qui s’en rend totalement tributaire.
Là encore, cette situation n’est pas nouvelle : les traducteurs automatiques, les correcteurs orthographiques, les environnements de développement intégrés, Internet lui-même, sont des outils d’une efficacité redoutable aux mains d’utilisateurs avertis, mais peuvent être terriblement dangereux lorsqu’ils sont manipulés sans discernement par des utilisateurs candides.
Au final, il nous appartient de décider si l’intelligence artificielle s’inscrira dans la lignée de ce que l’ordinateur a été jusque-là, à savoir une forme de vélo pour l’esprit, qui ne se substitue pas à notre force musculaire mais permet de la multiplier et donc d’aller plus loin, selon une métaphore chère à Steve Jobs.
Avec l’intelligence artificielle, sans doute est-on en train de passer au vélo électrique : le facteur multiplicateur est certes plus important, mais le principe reste le même, puisque c’est toujours le cycliste qui fournit le mouvement de base sans lequel le vélo électrique reste immobile.
L’alternative à ce scénario serait que l’intelligence artificielle devienne une sorte de SUV autonome, écrasant tout sur son passage : les nuances infinies de notre intelligence humaine, notre intuition, notre créativité, notre sensibilité, notre empathie au monde.
Si nous voulons éviter ce second scénario, il nous appartient donc de déterminer non seulement quand et comment utiliser l’intelligence artificielle, mais aussi et surtout quand et comment ne pas le faire.