IA

Meta a pillé 81 To de livres en torrent pour alimenter LLaMA

Des documents judiciaires produits dans le cadre d’une plainte pour violation de droit d’auteur prouve que la maison mère de Facebook a sciemment téléchargé illégalement en torrent 81 To de données pour alimenter son LLM.

Meta pris la main dans le sac à voler des données pour entraîner ses LLM. La maison-mère de Facebook, qui fait actuellement face à une action collective en justice pour violation du droit d’auteur et concurrence déloyale liée à l'entraînement de ses modèles aurait téléchargé illégalement 81,7 téraoctets de données issues de bibliothèques pirates, notamment Anna’s Archive, Z-Library et LibGen, pour enrichir LLaMA. Et d’après les documents judiciaires partagées par vx-underground sur X (anciennement Twitter), la firme était bien consciente de faire une grosse bêtise. 

Des communications internes remontant à 2022 montrent que plusieurs employés de la société s’inquiétaient de l’utilisation de “matériel piraté” pour alimenter les IA, l’un d’eux arguant que celà “dépasse notre seuil éthique”. Ces inquiétudes n’auraient toutefois pas pesé lourd face aux désidératas de Mark Zuckerberg qui, lors d’une réunion tenue en 2023, aurait déclaré : « Nous devons avancer sur ce sujet… nous devons trouver un moyen de débloquer tout cela. » Autres preuves s’il en fallait, les documents judiciaires montrent que Meta a tenté de dissimuler ses agissements en s’assurant que ses infrastructures ne soient pas directement associées aux opérations de téléchargement et de partage de fichiers piratés.

Meta n’est toutefois pas le seul à faire face à ce genre de critiques. OpenAI a été poursuivie dès juin 2023 par des écrivains pour avoir utilisé leurs œuvres sans autorisation tandis qu’en décembre de la même année, le New York Times intentait une action en justice contre les créateurs de ChatGPT. De son côté, Nvidia a été accusée d’avoir utilisé 196 640 livres pour entraîner son modèle NeMo, avant que ce dernier ne soit retiré. Il faudra toutefois attendre le jugement final pour savoir si Meta a bien enfreint la loi sur les droits d’auteur.

Nos derniers livres blancs