Google Veo 4 : trente secondes en 4K, storyboarding et personnages qui tiennent la route
Le 17 avril 2026, Google a officialisé Veo 4, quatrième génération de son modèle texte-vers-vidéo, après des semaines de rumeurs autour d'une réponse à la fermeture de Sora. Le modèle porte la durée maximale à 30 secondes par génération, la résolution native à 4K, et introduit un mode storyboarding qui enchaîne des plans successifs en préservant les décors, les personnages et les conditions lumineuses — un chantier qui hantait toutes les IA vidéo depuis deux ans. Une fonction de création zéro-shot d'avatar permet de générer un personnage cohérent à partir d'une seule image de référence, puis de le faire jouer dans plusieurs scènes sans glissement morphologique. Veo 4 s'intègre à Google Flow et à Gemini Ultra sur les abonnements payants, tandis que les utilisateurs gratuits gardent l'accès à Veo 3.1 via Google Vids, ce qui aligne la direction artistique d'une sortie musicale ou d'une capsule visuelle sur un pipeline désormais unifié. Le calendrier est éloquent : trois semaines après la fermeture annoncée de Sora, Google rafle le terrain que le modèle d'OpenAI prétendait occuper.
La durée et la 4K sont les chiffres qui titrent, mais l'information la plus lourde est le storyboarding. Jusqu'ici, toute narration vidéo générée par IA reposait sur un assemblage manuel de plans disjoints — un monteur collait, un coloriste rattrapait. En internalisant la cohérence inter-plans, Veo 4 rapproche la génération d'une logique de tournage plutôt que d'une logique d'image animée.
Ce basculement déplace la valeur. Tant que chaque plan était isolé, la signature narrative restait humaine : c'est le monteur qui racontait. Dès que la machine tient un fil, la question devient : le prompt suffit-il à définir une intention, ou faut-il toujours un regard qui choisit et resserre ? Pour l'instant, il faut toujours ce regard — et probablement pour longtemps.