IA Bulletin — 14 avril 2026

Seedance 2.0 en tête /
Retrait de Stability du terrain ouvert /
Musiciens au travail selon CHI 2026

Seedance 2.0 : le modèle vidéo de ByteDance dépasse Veo 3, Sora et Runway sur les benchmarks mondiaux

Le 26 mars 2026, ByteDance a déployé Seedance 2.0 dans CapCut et Dreamina à l'échelle mondiale, après une première phase limitée à l'Amérique du Sud et à l'Asie du Sud-Est. Le modèle adopte une architecture audio-vidéo unifiée générant simultanément son et image à partir de texte, d'images ou de vidéos de référence, produisant des séquences jusqu'à 15 secondes en 1080p avec audio natif, lip-sync phonétique en huit langues et cohérence de personnage sur plusieurs plans. Sur la plateforme de benchmarks Artificial Analysis, Seedance 2.0 a atteint un score Elo de 1 269, dépassant Google Veo 3, OpenAI Sora 2 et Runway Gen-4.5 — une première pour un modèle d'origine asiatique au sommet d'un classement occidental de référence en vidéo. Depuis le 9 avril 2026, le modèle est également accessible via l'API de fal.ai, ouvrant son intégration à des pipelines de production externe sans passer par les interfaces propriétaires de ByteDance. Des mesures de sécurité sont intégrées à la génération : le modèle refuse les visages réels et appose un filigrane invisible sur chaque contenu produit, permettant la traçabilité hors plateforme.

Note éditoriale

Qu'un modèle signé ByteDance domine le classement mondial de la génération vidéo — devant Veo 3, Sora et Runway — n'est pas une rupture soudaine. C'est l'aboutissement d'une progression cohérente, portée par des équipes qui ont appris, entre autres sur le terrain de TikTok, que la génération de contenu vidéo est un problème industriel avant d'être un problème académique.

Ce qui frappe dans Seedance 2.0, c'est la décision d'architecture : un modèle unique qui traite audio et vidéo comme une seule opération de génération. Les approches occidentales ont longtemps ajouté la piste sonore en post-traitement, comme une couche séparée et conditionnelle. Ici, l'audio est une contrainte de génération, pas une option finale. Ce déplacement technique est aussi un déplacement conceptuel : il reconnaît que son et image sont indissociables dans l'expérience du contenu vidéo.

Les mesures de sécurité — refus des visages réels, filigrane invisible — sont présentées comme des protections. Elles sont surtout des conditions d'accès aux marchés européen et américain, où la pression réglementaire est plus forte. Qu'elles soient présentes est déjà un signal ; qu'elles soient suffisantes est une question différente.

Sources : TechCrunch — Seedance 2.0 dans CapCutNo Film School — le modèle controversé arrive aux États-Unisfal.ai — Seedance 2.0 API disponible
Deep Learning — Studio Takuya
Deep Learning — Studio Takuya

Stability AI quitte le terrain ouvert : Brand Studio vise les équipes marketing d'entreprise

Le 8 avril 2026, Stability AI a lancé Brand Studio, une plateforme de production créative fermée destinée aux équipes marketing et publicitaires des entreprises, marquant un pivot stratégique depuis le terrain de l'open source communautaire où l'entreprise s'était imposée avec Stable Diffusion. La plateforme comprend Brand Central pour entraîner des modèles personnalisés sur le corpus visuel d'une marque, Producer Mode pour convertir des briefs créatifs en workflows de production automatisés, et Precision Inpainting pour l'édition ciblée d'éléments précis dans une image. Un système baptisé Curated Model Routing sélectionne automatiquement le modèle le plus adapté à chaque tâche selon le type de sortie attendu — une architecture transparente pour les créatifs qui ne souhaitent pas arbitrer eux-mêmes entre les moteurs disponibles. Pour des équipes travaillant sur des projets à forte densité visuelle — campagnes de marque, conception visuelle d'une sortie discographique, habillage produit — la promesse est de réduire le nombre d'interfaces distinctes à maîtriser dans un pipeline de production. La plateforme est disponible en version Core gratuite et en tier Enterprise, sans que les tarifs du palier payant aient été communiqués au moment du lancement.

Note éditoriale

Stability AI a construit sa réputation sur le paradoxe de Stable Diffusion : un modèle ouvert qui a rendu la génération d'images accessible à quiconque disposait d'un GPU. La communauté qui s'est développée autour de cet écosystème — des milliers de fine-tunes, de LoRA, d'interfaces alternatives comme Automatic1111 ou ComfyUI — est l'une des plus productives de toute l'IA générative.

Brand Studio renverse cette logique. Stability ne publie pas les poids du modèle sous-jacent, ne documente pas les datasets, ne favorise pas l'expérimentation externe. Elle vend un service fermé à des clients qui ne veulent pas savoir ce qu'il y a sous le capot. C'est un virage explicite : de la plateforme d'infrastructure à un produit SaaS avec des tarifs Enterprise.

Le précédent est bien documenté : c'est l'histoire d'Elasticsearch, Redis, MongoDB — des projets open source qui ont tenté de monétiser leur infrastructure en construisant une couche payante au-dessus. Parfois ça marche, parfois la communauté bifurque. Stability AI parie sur sa capacité à rester plus avancée que son propre écosystème. Dans un domaine où des modèles ouverts comme SongGeneration 2 ou ACE-Step 1.5 rivalisent avec les solutions commerciales, ce n'est pas gagné d'avance.

Sources : Humai Blog — Brand Studio lancéStability AI — News officiel

CHI 2026 : les musiciens professionnels ont testé les modèles TTM — et documenté pourquoi ils ne suffisent pas encore

Présentée à la conférence CHI 2026 (Barcelone, 13–17 avril), une étude a organisé des sessions de production musicale avec des musiciens professionnels expérimentés, chacun travaillant avec une interface combinant un modèle texte-musique (TTM) et un outil de séparation de sources audio, sous observation directe complétée d'entretiens semi-structurés. La conclusion principale est nette : les modèles TTM inspirent des idées et ouvrent des directions que les producteurs n'auraient pas envisagées spontanément, mais échouent à s'intégrer dans une pièce musicale existante dès que le créatif a une intention précise, un arrangement déjà défini ou un univers sonore en cours de construction. Les participants décrivent un sentiment d'incompatibilité de style : les sorties TTM ont une cohérence interne mais entrent en conflit avec le matériau humain — comme si le modèle générait depuis un espace parallèle sans pouvoir s'adapter à l'espace musical déjà occupé. L'étude identifie un besoin non adressé par les outils actuels : la capacité d'un modèle TTM à travailler sous contraintes imposées de l'extérieur — une tonalité, une grille d'accords, un rythme spécifique — plutôt que de partir d'une page blanche textuelle. Les chercheurs concluent que la phase d'idéation en début de projet est le cas d'usage le plus réaliste à court terme, et que l'intégration en production nécessitera des architectures mieux alignées sur l'intention et le style d'un compositeur spécifique.

Note éditoriale

Cette étude dit, avec le protocole d'une conférence académique de référence, ce que beaucoup de musiciens formulent depuis deux ans : les modèles TTM sont utiles quand on n'a pas encore d'idée, et encombrants quand on en a une. Ce n'est pas un défaut technique marginal — c'est une limite architecturale.

La distinction entre génération libre et complétion contrainte est fondamentale. Suno, Udio, SongGeneration 2 sont remarquables pour produire un morceau complet depuis une description textuelle. Mais dès qu'un compositeur a déjà une boucle, une progression d'accords, un groove — ces mêmes modèles ne savent pas se mettre au service. Ils ne répondent pas à une contrainte externe ; ils l'ignorent ou l'écrasent.

Ce que cette recherche pointe en filigrane, c'est l'asymétrie fondamentale entre génération et édition. MiniMax a commencé à traiter ce problème avec la fonctionnalité Cover de Music 2.6 — en fixant la mélodie et en laissant l'espace autour libre. C'est un pas dans la bonne direction. Mais la distance à parcourir avant qu'un producteur puisse déléguer à un modèle TTM la tâche de compléter sa propre musique reste considérable.

Sources : arXiv 2509.23364 — AI-Assisted Music Production: A User Study on Text-to-Music Models