Grok Imagine Video 1.5 prend la tête du classement Image-to-Video avec un son natif synchronisé que ni Sora ni Kling n'offrent
xAI a publié le 4 juin Grok Imagine Video 1.5 en préversion, un modèle image-vers-vidéo qui anime une image fixe en clip cinématographique jusqu'à 720p à 24 images par seconde, en préservant les détails et la lumière du visuel d'origine. Le modèle débute directement premier du classement Image-to-Video d'Artificial Analysis avec un score Elo de 1404 — un bond de 52 points sur son prédécesseur — devant Seedance 2.0 de ByteDance et les Veo de Google. Les clips de 6 à 15 secondes embarquent un son natif synchronisé, ambiances et dialogues compris, un avantage que ni Sora, ni Runway, ni Kling ne proposent nativement. Mouvements de caméra, rythme et atmosphère se pilotent par prompt texte, et plusieurs plans peuvent être assemblés en scènes plus longues à l'apparence cohérente. La préversion est accessible via l'API x.ai, pendant qu'OpenAI vient au contraire de retirer Sora, lestée d'un million de dollars de pertes par jour.
Les arènes consacrent le spectaculaire, pas le contrôlable : un Elo de 1404 mesure la préférence au premier regard, jamais la capacité à tenir un plan précis sur quinze secondes de brief client. Le vrai différenciateur est ailleurs — le son natif synchronisé fait gagner une passe entière de sound design sur les formats courts, là où la concurrence impose encore un aller-retour entre deux outils.
Reste le 720p : suffisant pour le flux social, sous le seuil pour la diffusion. Et le retrait de Sora rappelle que dans la vidéo générative, la question n'est plus de monter au classement, mais de survivre à sa propre facture de calcul.