Le célèbre forum américain Reddit accuse trois entreprises d’avoir aspiré ses données, puis de les avoir revendues pour entraîner des IA et notamment le moteur de réponse de Perplexity.
Après Anthropic (Claude) en juin dernier, c’est au tour de Perplexity d’être dans le viseur de Reddit. Le célèbre forum américain a déposé une plainte, mercredi 22 octobre, contre Perplexity, la startup d’intelligence artificielle derrière Comet, un navigateur dopé à l’IA, ainsi que contre trois autres sociétés.
Des outils de scraping pour collecter des contenus
« Reddit, Inc. engage cette action pour mettre fin à la contournement illégal à grande échelle des protections de données par un groupe de mauvais acteurs prêts à tout pour mettre la main sur du contenu précieux protégé par le droit d’auteur sur Reddit. », a indiqué le forum dans sa plainte.
Dans le détail, Reddit reproche aux entreprises Oxylabs, AWMProxy et SerpApi fournissant des outils de scraping conçus pour contourner les protections, d’avoir collecté ses données depuis les résultats de recherche de Google, et à Perplexity - « une entreprise d’intelligence artificielle (« IA ») plus proche d’un « hacker nord-coréen » selon les mots de Reddit - d’avoir collaboré avec au moins l’une de ces sociétés pour obtenir ces données afin d’entraîner son moteur de recherche.
« Ces outils visent à contourner deux niveaux de sécurité : d’abord, échapper aux mesures anti-scraping propres à Reddit, et ensuite, contourner les contrôles de Google pour scraper directement le contenu de Reddit depuis les résultats du moteur de recherche de Google. », décrit la plainte. Reddit dit avoir envoyé une lettre de cessation et d’abstention à Perplexity l’année passée. Depuis, la startup d'IA aurait « multiplié par quarante le volume de citations de Reddit ». Reddit demande le paiement de dommages et intérêts.
Pas de licence, pas de données
« Nous rejetons catégoriquement les accusations de Reddit et avons l’intention de nous défendre vigoureusement devant les tribunaux », a déclaré un porte-parole de SerpApi, cité par Reuters. Oxylabs s’est quant à elle dite « choquée et déçue par cette nouvelle, Reddit n’ayant fait aucune tentative pour nous contacter directement ».
Dans un communiqué partagé sur… Reddit, Perplexity a dénoncé ce qui, selon elle, « est un triste exemple de ce qui se passe lorsque des données publiques deviennent une part importante du modèle économique d’une entreprise publique ». Selon la startup, cette plainte est « un tour de force dans les négociations de Reddit concernant ses données d’entraînement avec Google et OpenAI ». En effet, Reddit n’est pourtant pas totalement opposé à l’utilisation de ses contenus pour entraîner des modèles d’IA et a déjà accordé des licences à Google et OpenAI pour accéder à ses données et les utiliser en toute légalité pour entraîner leurs modèles.
Perplexity a en outre ajouté que, « en tant qu’entreprise de niveau application », elle n’entraîne pas de modèles d’IA sur du contenu. Elle se contente de résumer les discussions de Reddit et de citer les fils de discussion dans ses réponses : « exactement comme les gens partagent des liens vers des publications ici tout le temps. »

