Et si l’IA mettait fin à l’anonymat sur Internet ?

Bientôt la fin de l’anonymat sur Internet à cause de l’IA ? Une nouvelle étude signée par des chercheurs spécialisés dans l’intelligence artificielle suggère que cette technologie permet d’identifier rapidement des profils sur le web en recoupant les informations partagées sur les réseaux sociaux. Dans certains cas, l’analyse de dix commentaires a suffi pour remonter jusqu’à l’individu qui se cache derrière un pseudonyme. Cette prouesse pourrait être utilisée de manière intéressée par des entreprises pour la publicité, voire de façon malveillante par des hackers ou des gouvernements répressifs.

Pendant des années, l’usage d’un pseudonyme sur des forums comme Reddit, Hacker News ou 4Chan suffisait à masquer son identité et à garder la confidentialité sur Internet. En effet, sans un nom, une adresse et un numéro de téléphone, notamment, il était difficile pour des hackers et d’autres personnes malveillantes de relier un profil à une identité réelle. Mais ça c’était avant l’intelligence artificielle, une technologie aux super pouvoirs quasiment illimités et qu’il reste encore à découvrir.

« Les LLM peuvent faire quelque chose qui était auparavant très difficile : remonter à l’identité complète d’un individu à partir d’un texte libre. »

Une nouvelle étude menée par des chercheurs de l’ETH Zurich, accompagnés par la célèbre entreprise d’IA Anthropic, suggère que l’intelligence artificielle (IA) pourrait rapidement identifier une personne cachée derrière un pseudonyme, rien qu’en extrayant et croisant des contenus disponibles sur des sites tels que Reddit, LinkedIn ou encore Hacker News.

Dans certains cas, cette technologie serait capable d’identifier des individus en se basant sur de simples commentaires. « Les LLM peuvent faire quelque chose qui était auparavant très difficile : à partir d’un texte libre, ils peuvent remonter jusqu’à l’identité complète d’une personne », assure Simon Lermen, coauteur de l’étude et ingénieur en IA. « C’est une capacité assez nouvelle. », ajoute-t-il. Eh oui, il faut bien l’avouer !

Un seul commentaire sur Reddit suffit à faire sauter l’anonymat sur Internet

Dans un premier test, les chercheurs ont collecté des recommandations de films publiées sur Reddit, puis les ont comparées à des données issues d’une fuite de comptes Netflix. Avec un seul commentaire, ils ont constaté que 3,1% des utilisateurs anonymes pouvaient être reliés à un compte nommé avec 90% de précision.

Entre cinq et neuf commentaires, ce taux montait à 23,2%. Et au-delà de dix, il grimpait à 48%, avec un haut niveau de confiance. Dans un autre scenario, les ingénieurs ont relié des pseudonymes de Hacker News à des comptes LinkedIn. En exploitant des indices comme l’âge, la ville, le domaine professionnel ou le vocabulaire employé, les LLM ont atteint 68% d’identification, avec 90% de précision.

Des scientifiques identifiés à partir de la description de leurs métiers ou projets

Un troisième test portant sur des scientifiques soumis à un questionnaire anonyme de dix minutes s’avère encore plus surprenant. Les algorithmes ont permis d’identifier 7% des 125 participants (9 chercheurs). Pour y parvenir, les LLM ont uniquement exploité les descriptions de leurs projets de recherche. Par exemple « je travaille dans la recherche en biologie », l’usage de l’orthographe britannique, ou encore la mention d’outils spécifiques.

Ces éléments ont suffi à réduire drastiquement le nombre de profils. Ces résultats montrent que l’IA est très performante pour identifier des individus anonymes à partir de simples commentaires sur Internet. Avec les approches existantes de réidentification, il faut généralement recourir à des données structurées ayant un schéma similaire afin de les relier entre elles. L’intelligence artificielle n’a pas besoin de tout ça.

Lever l’anonymat sur Internet devient moins cher et accessible à tous

Par ailleurs, l’IA ne prend que quelques minutes pour donner des résultats fiables, tandis que l’enquêteur humain le plus expert aura besoin de plusieurs heures, voire plusieurs jours. En outre, l’usage de cette technologie revient extrêmement moins cher. Selon les chercheurs de l’ETH Zurich, identifier une personne avec un algorithme (comme ChatGPT, Claude, Gemini…) coûte entre 1 et 4 dollars.

L’ensemble de leurs expériences ne leur a ainsi coûté « que » 2 000 dollars. Cette réduction drastique de la facture rend la dé-anonymisation plus accessible. N’importe qui pourrait le faire pourvu qu’il dispose d’un accès aux outils d’intelligence artificielle et d’un moyen de paiement.

Une arme redoutable pour les entreprises publicitaires et les gouvernements répressifs

Si ces modèles d’IA peuvent démasquer de faux profils de criminels en un temps record, ils représentent aussi potentiellement une menace pour l’anonymat sur Internet de simples utilisateurs. Le moindre risque serait le ciblage publicitaire. En effet, les entreprises pourraient relier des messages publiés sur des forums apparemment anonymes à des profils clients afin de faire de la publicité hyper ciblée et intrusif.

Mais il y a pire. Des attaquants pourraient construire à grande échelle des profils sophistiqués de leurs victimes afin de lancer des arnaques d’ingénierie sociale hautement personnalisées. De plus, l’IA permettrait aux gouvernements répressifs de relier des comptes pseudonymes à des identités bien réelles comme des dissidents politiques, des journalistes critiques, des militants de droits de l’homme ou des lanceurs d’alerte.

Des conseils pour protéger son anonymat sur Internet

Pour protéger leur anonymat sur Internet, les chercheurs recommandent aux utilisateurs de faire attention à ce qu’ils publient sur le web. Et surtout de multiplier les éléments pour garder l’anonymat total. Par exemple en utilisant un mail ou un numéro de téléphone détachés de sa vie réelle, en restreignant l’accès aux données via les API et en bloquant la collecte automatisée d’informations.

Les auteurs de l’étude appellent aussi les réseaux sociaux à restreindre l’accès aux données auxquelles les algorithmes peuvent avoir accès, notamment pour éviter le « scrapping ». Cette fonctionnalité est très utilisée par les modèles de langage pour récupérer le plus d’informations possibles afin de s’entraîner. Mais la méthode la plus fiable reste une forme de sobriété numérique : publier moins d’informations personnelles…