IA Bulletin — 5 avril 2026

Coûts divisés pour Veo 3.1 Lite /
Raisonnement amont chez Wan2.7 /
Édition affûtée pour GPT Image 1.5

La vidéo au prix de gros

Google a mis en ligne le 31 mars 2026 Veo 3.1 Lite, son modèle de génération vidéo par IA le plus économique, accessible via l'API Gemini et Google AI Studio. Conçu pour les applications à fort volume, il propose les mêmes vitesses de génération que Veo 3.1 Fast pour un coût inférieur de plus de 50 %, au tarif de 0,05 dollar par seconde de vidéo produite en 720p. Le modèle supporte les modes texte-vers-vidéo et image-vers-vidéo, avec des formats 16:9 et 9:16, des résolutions 720p et 1080p, et des durées ajustables de 4, 6 ou 8 secondes. Cette publication s'inscrit dans un mouvement plus large : Google prévoit une baisse tarifaire de Veo 3.1 Fast au 7 avril, abaissant progressivement le seuil d'accès à la génération vidéo professionnelle via API. La famille Veo 3.1 est également disponible sur Vertex AI, accompagnée d'une nouvelle capacité d'upscaling de résolution intégrée à la plateforme cloud de Google.

Note éditoriale

La question n'est pas la qualité de Veo 3.1 Lite — Google ne cache pas que ce modèle est pensé pour le volume, pas pour la finesse. La question est ce que cette baisse de prix signale comme direction de marché : la génération vidéo sort du domaine expérimental pour entrer dans celui de l'infrastructure de contenu. À 0,05 dollar la seconde, un studio indépendant peut générer dix minutes de vidéo pour trente dollars. Ce chiffre aurait semblé irréel il y a dix-huit mois.

Ce mouvement de commoditisation n'est pas propre à Google : Runway, Kling, LTX-2 ont chacun poussé dans la même direction. Ce qui change avec Veo 3.1 Lite, c'est la lisibilité du signal : quand le premier acteur de l'infrastructure mondiale commence à jouer sur le prix, le marché s'ajuste en conséquence. Les concurrents devront s'aligner ou se différencier par la qualité — et la différenciation par la qualité n'est pas un terrain facile quand les écarts de rendu se resserrent de trimestre en trimestre.

Ce que cela produit pour les créatifs est moins clair. Des coûts en baisse favorisent l'expérimentation, mais favorisent aussi la production de masse sans direction artistique. La question de qui tient la caméra — et avec quelle intention — n'est réglée ni par le prix, ni par la résolution.

Source : Google Blog — Build with Veo 3.1 Lite, our most cost-effective video generation model
Sainte ia — Studio Takuya
Sainte ia — Studio Takuya

Raisonner avant de peindre

Alibaba a publié le 1er avril 2026 Wan2.7-Image-Pro, un modèle de génération d'images par IA intégrant un mode de raisonnement inédit : avant de produire le moindre pixel, le modèle analyse la logique de composition, les relations spatiales et l'intention sémantique de la requête. La résolution maximale atteint 4 096 × 4 096 pixels pour le palier Pro, et 2 048 × 2 048 pour le standard, avec un rendu de texte précis dans 12 langues et une capacité d'ingestion de prompts allant jusqu'à 3 000 tokens. Le modèle accepte jusqu'à neuf images de référence simultanées et peut générer jusqu'à douze images en lot, ouvrant la voie à des workflows de storyboard, de séries de visuels d'album ou de catalogue visuellement cohérents. Son architecture repose sur le Flow Matching, un paradigme alternatif à la diffusion classique dans lequel la transformation d'un vecteur de bruit en image est modélisée de façon déterministe plutôt que stochastique. Wan2.7-Image-Pro est accessible via API, avec un déploiement attendu sur les plateformes grand public d'Alibaba Cloud dans les semaines suivant sa publication.

Note éditoriale

Le mode de raisonnement intégré est la fonctionnalité à observer dans Wan2.7. Jusqu'ici, les modèles de génération d'images fonctionnaient essentiellement comme des appareils à réflexes conditionnés : un prompt entrait, une image sortait, selon une distribution statistique apprise sur des milliards d'exemples. Intercaler une étape d'analyse entre l'entrée et la sortie — même si cette étape reste opaque — change l'équation, au moins formellement.

Ce qui reste à démontrer est si ce raisonnement améliore concrètement la fidélité aux intentions complexes. Les benchmarks de prompt adherence suggèrent que oui. La pratique créative pose une question différente : est-ce que l'on veut vraiment un modèle qui comprend exactement ce qu'on lui demande ? L'écart entre l'intention articulée et ce que l'outil produit est parfois la source du résultat le plus inattendu — et le plus intéressant. Un modèle qui comprend trop bien peut aussi produire un résultat trop prévisible.

La capacité multi-référence à neuf entrées est l'autre point notable. Pour un directeur artistique cherchant à maintenir une cohérence de style sur une production volumineuse, c'est une réduction de friction significative. L'outil ne supprime pas la direction artistique — il l'encode un peu mieux que les générations précédentes. Ce n'est pas rien, mais ce n'est pas encore la même chose.

Source : Gadget Voize — Alibaba Launches Wan2.7 for Precision Image Creation

Décrire moins, obtenir juste

OpenAI étend l'accès à GPT Image 1.5 à l'ensemble des utilisateurs de ChatGPT, avec une expérience d'édition d'images par IA entièrement remaniée disponible depuis l'interface web et les applications mobiles. Le modèle affiche des vitesses de génération jusqu'à quatre fois supérieures à son prédécesseur, avec une amélioration marquée du suivi d'instructions et de la précision dans l'édition sélective — modifier un élément précis sans affecter le reste de la composition. GPT Image 1.5 conserve les propriétés visuelles de l'image source à travers des éditions successives : éclairage, composition et apparence des personnes restent cohérents d'une itération à l'autre. Le rendu de texte dans l'image est également renforcé, notamment pour les contenus à forte densité typographique tels que les tableaux, formules ou légendes. L'accès est déployé en priorité vers les abonnés individuels, le déploiement vers les comptes Business et Enterprise étant annoncé pour les semaines suivantes.

Note éditoriale

Ce que GPT Image 1.5 améliore en priorité — le suivi d'instructions, la cohérence édition après édition — dit quelque chose d'important sur la maturité du marché. La phase de la stupéfaction devant la génération brute est passée. Ce qui importe désormais, c'est le contrôle : est-ce que l'outil fait ce qu'on lui demande, précisément, sans déborder ?

Cette évolution rapproche la génération d'images d'un outil de production plus que d'un outil de découverte. On lui confie une intention précise, on attend une exécution fidèle. Le modèle comme partenaire dans une démarche d'exploration — celui qu'on laisse surprendre — recule au profit du modèle comme exécutant qualifié. Ces deux postures ne sont pas opposées, mais elles ne s'adressent pas aux mêmes moments du processus créatif.

La fidélité d'exécution sert la production ; la dérive contrôlée sert l'invention. Qu'OpenAI optimise la première est un choix raisonnable pour conquérir les usages professionnels — et peut-être un signal sur ce que le marché demande en ce moment : moins de surprise, plus de confiance. Ce n'est pas forcément ce que les artistes cherchent, mais c'est probablement ce que cherchent la majorité des utilisateurs de ChatGPT.

Source : OpenAI — The new ChatGPT Images is here