Résumé synthétique
SANA-WM est un modèle expérimental de NVIDIA qui génère des vidéos plus longues et plus cohérentes à partir d’une image, d’un texte et d’un mouvement de caméra. Son intérêt principal : accélérer la création vidéo, la prévisualisation et la génération d’environnements visuels.
Créer une vidéo avec l’IA n’a jamais été aussi simple.
Mais créer une vidéo longue, stable et cohérente reste encore un vrai défi. Les modèles actuels peuvent produire des séquences impressionnantes, mais dès que la durée augmente, les problèmes apparaissent vite : objets qui changent, décors instables, mouvements incohérents.
C’est précisément ce que NVIDIA veut améliorer avec SANA-WM.
Ce modèle ne se contente pas de générer quelques secondes à partir d’un . Il part d’une image, d’un texte et d’un mouvement de caméra pour produire une vidéo où la scène garde une certaine cohérence dans l’espace.
Autrement dit, SANA-WM ne cherche pas seulement à créer une vidéo. Il essaie de créer un environnement que la caméra peut parcourir.
Qu’est-ce que SANA-WM ?
SANA-WM est un world model développé par NVIDIA.
Un world model est un modèle d’IA qui tente de représenter un environnement de manière plus cohérente qu’un générateur vidéo classique. L’objectif n’est pas seulement d’enchaîner des images, mais de conserver une logique spatiale : les objets, la profondeur, la perspective et le mouvement de caméra doivent rester crédibles.
Là où un modèle text-to-video produit surtout une séquence animée, SANA-WM essaie de maintenir la structure de la scène.
Un générateur vidéo classique crée une séquence.
SANA-WM essaie de créer un espace cohérent à explorer.
Le modèle peut générer des vidéos en 720p, jusqu’à environ 60 secondes, avec un contrôle caméra en 6 degrés de liberté.
Concrètement, cela permet de simuler plusieurs types de mouvements :
- avancer ou reculer ;
- tourner la caméra ;
- monter ou descendre ;
- se déplacer latéralement ;
- explorer une scène avec une trajectoire plus naturelle.