Le nouveau modèle des créateurs de Chat GPT s’est montré à travers une impressionnante vidéo de démonstration générée à partir d’un texte simple.
OpenAI s’attaque au text-to-video. La start-up créatrice de Chat GPT vient de lancer Sora, un modèle qui doit lui permettre de venir jouer sur les plates bandes des Meta, Google et Runaway AI qui l’avaient devancés dans la transcription de texte en vidéo. Et ces derniers ont surement du soucis à se faire au regard de la démonstration réalisée par OpenAI. Alors que le défis actuel du secteur est de créer des vidéos de plus en plus réalistes en se débarrassant au maximum du bruit et des aberrations, la poule aux œufs d’or de Microsoft semble avoir fait un bond en avant dans cette direction.
D’après OpenAI, la vidéo présentée lors de l'annonce de Sora a été obtenue à partir du texte : “Une femme élégante marche dans une rue de Tokyo remplie de néons lumineux et de panneaux de signalisation animés. Elle porte une veste en cuir noir, une longue robe rouge, des bottes noires et un sac à main noir. Elle porte des lunettes de soleil et du rouge à lèvres rouge. Elle marche avec assurance et décontraction. La rue est humide et réfléchissante, ce qui crée un effet de miroir avec les lumières colorées. De nombreux piétons se promènent.” Et c’est plutôt impressionnant comparer à ce que sont capables de fournir les autres modèles. Selon son créateur, Sora repose sur une compréhension approfondie du langage pour interpréter les messages avec précision et ainsi générer des personnages les plus convaincants possible. D’après OpenAI, le modèle est également capable de créer plusieurs plans au sein d'une même vidéo, à condition que la requête soit correctement exprimée.
Quelques défaut de jeunesse
OpenAI reconnaît toutefois que Sora souffre encore de défauts de jeunesse. D’après la start-up, le modèle a encore des soucis en ce qui concerne la simulation précise de la physique d'une scène complexe et peut ne pas comprendre des cas spécifiques de cause et d'effet. Sora a également du mal avec les détails spatiaux d'une requête, par exemple en confondant la gauche et la droite, et peut avoir du mal à décrire avec précision des événements qui se déroulent dans le temps, par exemple en suivant une trajectoire de caméra spécifique.
Si la solution fait envie, les utilisateurs de ChatGPT vont toutefois devoir attendre un peu avant de poser les mains dessus. Sora n’est pour l’instant accessible qu’à un petit nombre de personnes pour tester sa sécurité et les risques, ainsi qu’à des créateurs pour collecter des retours sur son utilisation.