IA Bulletin — 5 juin 2026

Grok Imagine 1.5 en tête de l'arène vidéo /
Ideogram 4.0, le design en poids ouverts /
Cap sur la v8.2 chez Midjourney

Grok Imagine Video 1.5 prend la tête du classement Image-to-Video avec un son natif synchronisé que ni Sora ni Kling n'offrent

xAI a publié le 4 juin Grok Imagine Video 1.5 en préversion, un modèle image-vers-vidéo qui anime une image fixe en clip cinématographique jusqu'à 720p à 24 images par seconde, en préservant les détails et la lumière du visuel d'origine. Le modèle débute directement premier du classement Image-to-Video d'Artificial Analysis avec un score Elo de 1404 — un bond de 52 points sur son prédécesseur — devant Seedance 2.0 de ByteDance et les Veo de Google. Les clips de 6 à 15 secondes embarquent un son natif synchronisé, ambiances et dialogues compris, un avantage que ni Sora, ni Runway, ni Kling ne proposent nativement. Mouvements de caméra, rythme et atmosphère se pilotent par prompt texte, et plusieurs plans peuvent être assemblés en scènes plus longues à l'apparence cohérente. La préversion est accessible via l'API x.ai, pendant qu'OpenAI vient au contraire de retirer Sora, lestée d'un million de dollars de pertes par jour.

Note éditoriale

Les arènes consacrent le spectaculaire, pas le contrôlable : un Elo de 1404 mesure la préférence au premier regard, jamais la capacité à tenir un plan précis sur quinze secondes de brief client. Le vrai différenciateur est ailleurs — le son natif synchronisé fait gagner une passe entière de sound design sur les formats courts, là où la concurrence impose encore un aller-retour entre deux outils.

Reste le 720p : suffisant pour le flux social, sous le seuil pour la diffusion. Et le retrait de Sora rappelle que dans la vidéo générative, la question n'est plus de monter au classement, mais de survivre à sa propre facture de calcul.

Sources : xAI — Grok Imagine 1.5 PreviewThe Decoder — xAI updates Grok Imagine to 1.5 with image-to-video generation at 720pThe AI Corner — Grok Imagine is now the #1 AI video model

Ideogram 4.0 passe en poids ouverts avec 2K natif, contrôle de mise en page et rendu typographique pensé pour les logos et les affiches

Ideogram a publié le 3 juin la version 4.0 de son modèle texte-vers-image, son premier modèle à poids ouverts, téléchargeable avec son code sur GitHub. L'architecture Diffusion Transformer single-stream de 9,3 milliards de paramètres offre une résolution 2K native, des fonds transparents, un contrôle de mise en page par bounding boxes et un rendu typographique amélioré, pensé pour les logos et les affiches. Le modèle se hisse premier des modèles ouverts sur DesignArena — seuls les systèmes fermés d'OpenAI et de Google le devancent — et premier en mode qualité de l'arène texte-vers-image open source. Il tourne sur matériel personnel et se fine-tune avec ses propres données, un terrain sérieux pour quiconque industrialise la typographie d'une pochette d'album ou un système d'affiches cohérent. Les poids restent gratuits pour la recherche, mais l'usage commercial exige une licence payante ; l'API hébergée facture de 0,03 à 0,10 dollar l'image, et le modèle arrive chez ComfyUI, Hugging Face, Krea, fal et une dizaine d'autres partenaires.

Note éditoriale

« Poids ouverts » avec licence commerciale payante : l'ouverture devient un argument de distribution, pas un cadeau. Le calcul d'Ideogram est limpide — occuper toutes les plateformes d'un coup, laisser la communauté écrire les tutoriels, et encaisser au moment où l'usage devient professionnel.

Pour les studios graphiques, la vraie nouvelle tient en un mot : fine-tuning local. Un modèle spécialisé en lettrage qui s'entraîne sur sa propre charte, sur ses propres grilles, sans envoyer une seule image chez un tiers — c'est précisément la brique qui manquait entre les générateurs grand public et les chaînes de production identitaires.

Sources : The Decoder — Ideogram 4.0 drops as an open-weight model with native 2K resolutionIdeogram — Ideogram 4.0Hugging Face — ideogram-ai/ideogram-4-fp8

Midjourney fixe son cap d'été : v8.2 sous deux semaines, nouveau modèle d'édition et migration d'infrastructure vers de nouveaux clusters

La réunion hebdomadaire Office Hours du 3 juin a posé les deux priorités de Midjourney pour les semaines à venir : la sortie de la v8.2 et le nouveau modèle d'édition. La v8.2 se concentre sur la correction et l'extension de l'esthétique héritée de la v8.1 — l'équipe dit avoir identifié et résolu plusieurs problèmes de stabilité du rendu, pour une sortie estimée à deux semaines par David Holz. Avant cette échéance, la v8.1 deviendra le modèle par défaut sur le site et sur Discord. La feuille de route de juin annonce aussi des améliorations de la fonction OREF (référence omni) et de nouvelles fonctions de prévisualisation d'images. En coulisses, une migration d'infrastructure à grande échelle vers de nouveaux clusters doit accélérer la recherche et l'entraînement des futurs modèles.

Note éditoriale

Pendant que xAI et ByteDance livrent des modèles entiers en quelques jours, Midjourney consacre une version complète à corriger une esthétique — et c'est précisément ce qui fait sa valeur pour les graphistes. La cohérence d'un rendu d'une version à l'autre est une denrée plus rare que la nouveauté ; un outil qui change de personnalité tous les mois est inutilisable en production sérielle.

Le poste à surveiller reste le modèle d'édition : c'est lui qui décidera si Midjourney rattrape le terrain de la retouche conversationnelle, devenu le standard chez tous ses concurrents.

Sources : Enthusiastically Midjourney — Office Hours Recap, week of June 1st, 2026Midjourney — News and Updates
Bright Future — Studio Takuya
Bright Future — Studio Takuya