L’arrivée de Sora par Open AI marque un tournant dans l’utilisation de l’intelligence artificielle. Jusqu’à présent, l’intelligence artificielle avait bluffé par la qualité des images qu’elle était capable de générer et Midjourney avait fait le tour du monde par les décontextualisations réalistes qu’il était capable de générer.
Sora par Open Ai a décidé d’obtenir la même qualité, mais en se concentrant sur la vidéo. L’intelligence artificielle travaille sur la création de vidéos automatiquement générées à l’aide de prompt, et également sur la transformation de vidéos déjà réalisées. Les résultats actuelles sont des résultats réalisés en interne et pas encore accessible au public, mais si l’intelligence artificielle est capable de générer de tels images à disposition du public, il y aura dans le monde de la vidéo un avant, et un après Sora.
Prompt: The camera directly faces colorful buildings in Burano Italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings. |
Sora, selon les dires de ses créateurs, peut générer des vidéos allant jusqu’à 1 minute tout en gardant la qualité de l’image et surtout en respectant au plus près le prompt de départ.
En cours de développement, Sora n’est pas encore accessible au public mais le modèle est déjà testé en interne et par quelques créateurs.
Sora est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis sur le sujet et l’arrière-plan. Le modèle comprend non seulement ce que l’utilisateur a demandé dans le prompt, mais aussi comment ces choses existent dans le monde physique.
Le modèle a une compréhension approfondie du langage, ce qui lui permet d’interpréter avec précision les prompts et de générer des personnages convaincants qui expriment des émotions. Sora peut également créer plusieurs plans au sein d’une même vidéo générée, en conservant fidèlement les personnages et le style visuel.
Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes. |
Les limites actuelles de Sora par Open Ai :
Le modèle actuel présente des faiblesses. Il peut avoir du mal à simuler avec précision la physique d’une scène complexe et ne pas comprendre les cas spécifiques de cause et d’effet. Par exemple, une personne peut mordre dans un biscuit, mais après coup, le biscuit peut ne pas avoir de trace de morsure.
Le modèle peut également confondre les détails spatiaux d’une invite, par exemple en confondant la gauche et la droite, et peut éprouver des difficultés à décrire avec précision des événements qui se déroulent dans le temps, par exemple en suivant une trajectoire de caméra spécifique.
Ce qu’apporte Sora par rapport aux modèles déjà existant ?
La véritable révolution de Sora vient de sa capacité à conserver les modèles de bases tout au long de la vidéo. Au delà de l’extrême précision des images, sa stabilité, sa capacité à suivre les prompts de manière précise, va permettre aux créateurs d’obtenir des images de qualité parfaitement intégrable à des vidéos plus longues et plus scénarisés. Une véritable révolution à venir.
A quand une version publique ?
Aucune date n’a été annoncée mais gageons que les premiers tests à grande échelle se feront petit à petit tout au long de l’année 2024 pour un lancement autour de la fin 2024, le temps que la technologie gagne de la stabilité.
|