IA Bulletin — 3 juin 2026

Music v2 d'ElevenLabs et le changement de genre en cours de morceau /
Stable Audio 3.0 et les poids ouverts sous licence /
Veo 3.1 dans les workflows locaux de ComfyUI

Music v2 d'ElevenLabs introduit le changement de genre en cours de morceau, la réécriture par section et un entraînement sur données sous licence

ElevenLabs a lancé le 27 mai Music v2, mise à jour majeure de son modèle de génération musicale, capable de basculer de genre au milieu d'un même morceau — de l'opéra au métal et retour — sans perdre la cohérence de la voix. La fonction phare est l'inpainting par section : on sélectionne un pont, un couplet ou un refrain et l'on régénère ce seul segment sans toucher au reste du morceau. Le modèle compose désormais section par section, permettant de bâtir intro, couplets et refrains indépendamment avant de les assembler. ElevenLabs insiste sur un point qui le démarque : Music v2 a été entraîné exclusivement sur des données sous licence et dégagé pour un usage commercial, à rebours de Suno et Udio, toujours visés par des poursuites des majors. La sortie s'accompagne de baisses de prix allant jusqu'à 50 % sur l'API et 40 % en self-serve, abaissant encore la barrière pour l'artiste autoproduit qui gère lui-même son morceau et la direction artistique d'album qui l'accompagne.

Note éditoriale

L'inpainting est la vraie nouvelle, pas la bascule de genre. Pouvoir reprendre huit mesures d'un pont sans relancer tout le morceau, c'est faire passer la génération musicale du statut de machine à loterie à celui d'outil d'édition — la même rupture qui a fait basculer l'image quand le masque sélectif est arrivé. Tant qu'on régénérait un titre entier en espérant mieux, l'IA musicale restait un gadget ; dès qu'on retouche une zone, elle entre dans la chaîne de production.

Reste la carte maîtresse, brandie au bon moment : l'entraînement sous licence. À l'heure où Sony attend un arbitrage cet été contre Suno et Udio, vendre la conformité comme une fonctionnalité n'est pas un détail — c'est le terrain sur lequel se jouera la prochaine bataille, bien avant la qualité sonore.

Sources : TechCrunch — ElevenLabs' new music-generation model can switch genres mid-trackElevenLabs Blog — Introducing Music v2The AI Insider — Music v2 with mid-track genre switching and commercial clearance

Stable Audio 3.0 de Stability AI ouvre quatre modèles sous licence, des morceaux de plus de six minutes et des poids ouverts pour la génération locale

Stability AI a présenté le 20 mai Stable Audio 3.0, une famille de quatre modèles de génération musicale entraînés intégralement sur des données sous licence. Les versions medium et large produisent des compositions allant jusqu'à six minutes et vingt secondes en conservant structure et tonalité — plus du double de la durée atteinte par Stable Audio 2.0 en 2024. Trois des quatre modèles, small SFX, small et medium, sont publiés en poids ouverts, librement utilisables et modifiables, tandis que le large reste réservé à l'API et à l'auto-hébergement payant. Les deux petits modèles, à 459 millions de paramètres, visent la génération embarquée de son et de musique jusqu'à deux minutes, directement sur la machine. Stability a par ailleurs noué des accords avec Warner Music Group et Universal Music Group pour développer modèles et outils de création.

Note éditoriale

Deux modèles musicaux sous licence en huit jours, l'un fermé et facturé à l'usage (ElevenLabs), l'autre ouvert et auto-hébergeable (Stability) : la ligne de fracture de l'IA créative se dessine nettement. La donnée d'entraînement est devenue le terrain de différenciation, et chacun choisit son camp — la conformité comme service vendu, ou la conformité comme bien commun téléchargeable.

Pour un studio, le poids ouvert change tout : un modèle qui tourne sur le poste, sans abonnement ni quota, transforme la génération sonore en brique d'outil plutôt qu'en location. La durée de six minutes, elle, fait sortir l'exercice du teaser de quinze secondes pour approcher le format d'un vrai morceau.

Sources : TechCrunch — Stability AI releases a new audio model that can create 6-minute songsMusic Ally — Stability AI launches its latest, fully-licensed music modelStability AI — Stable Audio

Veo 3.1 de Google DeepMind arrive dans ComfyUI et rapproche la génération vidéo de pointe des workflows locaux des créateurs

Le modèle vidéo Veo 3.1 de Google DeepMind est désormais accessible directement dans ComfyUI, via des nœuds partenaires intégrés à l'environnement. Veo 3.1 génère de la vidéo avec son synchronisé natif — effets, ambiances et dialogues — à partir d'une simple description ou d'une image de référence. ComfyUI, l'environnement nodal open-source au cœur de nombreuses chaînes de production, permet d'enchaîner Veo 3.1 avec d'autres modèles d'image et de vidéo dans un même graphe. L'intégration suit le mouvement de fond de la semaine — NVIDIA et ComfyUI poussant la génération vidéo en local —, même si Veo reste, lui, un service appelé via API plutôt qu'un modèle tournant sur la machine. En parallèle, Google diffuse Lyria 3 en préversion publique, jusqu'à 184 secondes d'audio, et combine Veo 3.1 et Lyria 3 dans Google Vids pour produire image et bande-son dans un même projet.

Note éditoriale

Le détail qui compte n'est pas Veo, c'est le nœud ComfyUI. Brancher un modèle propriétaire de pointe dans un graphe open-source, c'est laisser le créateur décider de l'orchestration : Veo pour le plan, un autre modèle pour l'étalonnage, un troisième pour le son, le tout scriptable et reproductible. La valeur se déplace du modèle vers la chaîne qui l'assemble.

La limite est honnête à rappeler : Veo reste un appel API facturé, pas un calcul local. La semaine vend le on-device, mais la vidéo de pointe, elle, continue de passer par le serveur — l'open-source ici, c'est le tuyau, pas encore le moteur.

Sources : ComfyUI Blog — Veo 3.1 is now available in ComfyUIGoogle DeepMind — Lyria 3TechBuzz — Google Vids gets free AI video generation with Lyria 3 and Veo 3.1
Paris 15e — Studio Takuya
Paris 15e — Studio Takuya