IA

Nvidia rachète la startup de données synthétiques Gretel

Selon des sources de nos confrères de Wired, le géant des puces Nvidia s’est offert la startup de données synthétiques Gretel pour 320 millions de dollars. Les 80 employés de l’entreprise et ses services seront intégrés à Nvidia.

Les développeurs d’intelligence artificielle sont confrontés à un problème de taille, car les données disponibles pour entraîner leurs modèles se font rares. Pour pallier ce manque, de plus en plus d’acteurs utilisent des données synthétiques générées par l’intelligence artificielle, qui imitent les données réelles, promettant ainsi une source de données infinie facilitant l’entraînement des modèles.

Selon nos confrères de Wired, Nvidia aurait donc racheté Gretel. Fondée en 2019 par Alex Watson, John Myers et Ali Golshan, cette startup développe une plateforme de données synthétiques et une suite d’API destinées aux développeurs. Elle viendra renforcer les services d’IA générative basés sur le cloud de Nvidia. Gretel affine des modèles existants et y ajoute des fonctionnalités de confidentialité et de sécurité pour les développeurs désireux de protéger leurs données d’entraînement.

Un risque d’effondrement des modèles

Cette acquisition n’a en réalité rien de surprenant. Nvidia investit depuis quelques années déjà dans cette technologie. L’entreprise a par exemple lancé Omniverse Replicator en 2022 afin de générer des données 3D synthétiques pour l’entraînement de réseaux neuronaux.

Elle développe également des modèles open source (Nemotron-4 340B) pour la génération de données d’entraînement synthétiques, afin d’aider les développeurs à concevoir et affiner leurs LLM dans les secteurs de la santé, de la finance, de l’industrie ou encore du commerce de détail.

Malgré les promesses de cette technologie, certains experts alertent sur le risque d’effondrement des modèles, décrit dans un article de Nature datant de juillet 2024. Ce phénomène correspond à une dégradation des performances des modèles lorsqu’ils sont continuellement affinés avec des données synthétiques, qu’ils moulinent en boucle.

Pour contourner le problème, certains acteurs, comme Alexandr Wang, PDG de Scale AI cité par Wired, prônent un modèle hybride, combinant données humaines et synthétiques et intégrant de nouvelles données à chaque cycle d’entraînement.

Nos derniers livres blancs