IA Bulletin — 28 avril 2026

HappyHorse 1.0 sur fal et Bailian /
GPT Image 2 dans ComfyUI via Partner Nodes /
Lyria 3 et Lyria 3 Pro en preview publique sur Vertex AI

HappyHorse 1.0 ouvre son API sur fal et Bailian, l’arena vidéo bascule chez Alibaba ATH

Le modèle vidéo HappyHorse 1.0, développé par Alibaba Token Hub (ATH) sous la direction de Zhang Di, est passé en accès développeurs et entreprises sur fal le 26 avril 2026 à 21 h PST et sur Alibaba Cloud Bailian dès le lendemain, après trois semaines passées en tête de l’Artificial Analysis Video Arena dans les classements text-to-video et image-to-video. L’architecture est un Transformer unifié de 15 milliards de paramètres à 40 couches d’auto-attention qui produit la vidéo et l’audio dans une même passe, sans cross-attention ni post-traitement audio séparé, et synchronise nativement le lip-sync sur sept langues dont le français, le japonais et le mandarin. Sortie en 1080p, génération autour de 38 secondes par clip sur une seule H100, et marge de 57 points Elo en image-to-video sur Seedance 2.0 — la plus large jamais enregistrée sur l’arena. Quatre endpoints sont exposés sur fal : text-to-video, image-to-video, reference-to-video, video-edit, et la facturation est calée sur le tarif d’entreprise Bailian avec une remise de 10 % pour l’accès anticipé. Le modèle est placé en concurrence directe avec Wan 2.7, sorti il y a trois semaines par le Tongyi Lab voisin chez Alibaba, et confirme que le groupe de Hangzhou pilote désormais deux écoles de vidéo générative en parallèle.

Note éditoriale

Deux unités d’Alibaba qui se tirent la bourre sur l’arena vidéo, c’est exactement la situation que Google avait organisée en interne entre Imagen et Veo, et le résultat est le même : la concurrence intra-groupe accélère plus que la concurrence inter-groupes. Tongyi a publié Wan 2.7 avec un Thinking Mode en mode cloud-first ; ATH publie HappyHorse en API ouverte avec l’approche unifiée audio-vidéo qui manquait à Wan. La différence stratégique tient dans le geste API : ouvrir un endpoint à 38 secondes par 1080p sur H100, c’est se positionner comme infrastructure pour les studios, pas comme appli grand public.

Ce qui est nouveau pour les créatifs, c’est le lip-sync multilingue intégré au modèle de base — pas un module rapporté, pas un Wav2Lip de fin de chaîne. Pour la pratique studio, ça veut dire qu’une voix générée par ElevenLabs ou enregistrée en cabine peut s’injecter directement comme conditioning, et le rendu lèvres-mâchoire suit. Les pipelines de clip musical, de pub et de podcast vidéo qui devaient empiler trois modèles distincts gagnent une couche.

Sources : fal — HappyHorse 1.0 goes liveCNBC — Alibaba revealed as creator of HappyHorse 1.0Bloomberg — Alibaba video AI tops global rankingApiyi — HappyHorse API on Alibaba Cloud Bailian

GPT Image 2 entre dans ComfyUI via Partner Nodes, premier modèle image qui raisonne avant de générer

OpenAI a publié gpt-image-2 le 21 avril 2026 dans ChatGPT et sur l’API, et la ComfyUI v0.19.4 sortie cette semaine intègre nativement le modèle via Partner Nodes — il suffit de chercher « OpenAI GPT Image » dans la Node Library pour brancher gpt-image-2 dans n’importe quel graphe local. C’est le premier modèle d’image agentique du secteur : avant de rastériser, le modèle planifie la composition, vérifie son propre travail, itère, et peut interroger le web pour récupérer le logo actuel d’une marque, l’allure d’un lieu ou la dernière version d’un produit. La résolution native monte à 4096×4096, la précision typographique atteint 99 % au caractère près sur les alphabets latin, CJK, hindi et bengali, et la fidélité d’édition contextuelle tient pixel par pixel sur la zone non touchée. Sur l’Image Arena, le modèle a pris la première place de toutes les catégories en moins de douze heures avec une avance de 242 points Elo — record absolu de la plateforme. Ce que ça change concrètement pour ComfyUI : les frames texte-lourdes (poster, infographie, planche manga, slide titre) cessent d’exiger un compositing manuel sous Photoshop, et la passation de relais vers FLUX, Wan ou un upscaler local reste fluide dans le même graphe.

Note éditoriale

Faire raisonner le modèle avant la rastérisation, c’est rendre lisible ce que les diffuseurs faisaient en aveugle — choix de cadrage, lignes typographiques, hiérarchie de plans. L’image cesse d’être un coup de dé pour devenir un compromis explicite, et c’est cohérent avec ce qu’on voyait depuis six mois sur la vidéo (Wan 2.7 Thinking Mode) et la 3D (Trellis r2). Le déplacement est le même : la qualité dépend désormais plus de la spécification que le modèle s’est faite que du moteur lui-même.

L’intégration ComfyUI via Partner Nodes est plus politique qu’il n’y paraît. Pendant que Stability se replie sur l’entreprise et que Sora ferme son app grand public, OpenAI choisit de brancher son meilleur modèle d’image dans le pipeline open source qui anime les studios. C’est le geste qu’Adobe et Google n’ont pas fait, et il dessine une ligne de démarcation entre les fournisseurs de modèles et les fournisseurs d’applis fermées — ligne sur laquelle ComfyUI et son atelier de pochette d’album attaché s’installent confortablement.

Sources : ComfyUI Blog — GPT Image 2 via Partner NodesOpenAI — Introducing ChatGPT Images 2.0Build Fast with AI — ChatGPT Images 2.0 developer breakdownThe New Stack — OpenAI now thinks before it draws

Lyria 3 et Lyria 3 Pro entrent en preview publique sur Vertex AI

Google DeepMind a élargi en avril 2026 l’accès à sa famille de modèles musicaux Lyria 3, désormais disponible en preview publique sur Vertex AI aux côtés de l’API Gemini et de l’app Gemini grand public. Lyria 3 Pro compose des morceaux jusqu’à trois minutes, structurés en intro, couplets, refrains et ponts, avec voix synthétisées et paroles cadencées dans la durée du morceau, tandis que Lyria 3 cible des extraits de 30 secondes pour le prototypage rapide et les assets sociaux. Les deux modèles génèrent du stéréo haute fidélité à partir de prompts texte ou d’images, avec contrôle de structure musicale et passage d’une section à l’autre dans le même rendu, ce qui les rapproche du territoire de Suno 5.5 et d’ElevenMusic. Toutes les sorties embarquent un watermark SynthID imperceptible et un manifest C2PA de provenance, deux signaux exigés par les plateformes de distribution depuis l’adoption du DDEX étendu en mars. Le tarif Vertex est calé sur la facturation seconde, et la disponibilité multilingue couvre français, anglais, espagnol, portugais et japonais en sortie chantée.

Note éditoriale

Lyria 3 Pro déplace la question musicale loin de la concurrence Suno-Udio-ElevenMusic : Google ne vise pas l’auteur isolé qui veut publier sur Spotify, mais l’intégrateur d’entreprise qui veut une chaîne audio dans Vertex à côté de Veo et de Gemini. La logique est verticale — la même API génère la voix off, l’habillage, la nappe de synthé, et l’outil créatif n’a plus à choisir entre quatre fournisseurs avec quatre licences. Ce qui suit côté studio : moins de plateformes à orchestrer, plus de dépendance à Vertex.

Le watermark SynthID et le manifest C2PA imposés par défaut sont à la fois une bonne et une mauvaise nouvelle. Bonne, parce que la plateforme distingue désormais à coup sûr ce qui est sorti d’un modèle Google de ce qui est joué par un humain — l’identification ne dépend plus de la déclaration volontaire. Mauvaise, parce que ce statut de marquage par défaut crée une asymétrie : un morceau Lyria est traçable, un morceau Suno reste détectable mais sans signal embarqué, et la plateforme qui choisit son modèle choisit aussi son rapport à la traçabilité.

Sources : Google Cloud Blog — Lyria 3 and Lyria 3 Pro on Vertex AIGoogle Blog — Lyria 3 expands to more Google productsGoogle DeepMind — Lyria 3Google AI for Developers — Generate music with Lyria 3
Moonlight Serenade — Studio Takuya
Moonlight Serenade — Studio Takuya