IA Bulletin — 1er avril 2026

Open source au-delà de Suno /
Kling en 4K natif /
Consolidation Runway des modèles

SongGeneration 2 : Tencent publie en open source un modèle qui dépasse Suno sur la précision des paroles

Tencent AI Lab a mis à disposition en open source SongGeneration 2 (également désigné LeVo 2), un modèle de génération musicale de 4 milliards de paramètres capable de produire des morceaux complets jusqu'à 4 minutes 30 secondes, incluant voix et accompagnement séparés ou mixés, téléchargeable librement sur GitHub et Hugging Face. L'architecture hybride LLM-Diffusion supporte la génération multilingue — chinois, anglais, espagnol, japonais — et atteint un taux d'erreur phonétique (PER) de 8,55 %, surpassant directement Suno v5 (12,4 %) et Mureka v8 (9,96 %) sur la précision des paroles chantées selon une évaluation menée par 20 professionnels de l'industrie musicale. Une version accélérée, SongGeneration-v2-Fast, permet de générer un morceau complet en moins d'une minute depuis un espace Hugging Face, rendant le modèle accessible sans infrastructure locale. Le modèle peut produire des vocaux avec accompagnement, des instrumentaux purs, de l'a cappella ou des sorties dual-track séparées, couvrant ainsi l'ensemble des formats utiles dans un contexte de production professionnelle ou de composition assistée. Cette publication marque une étape structurante dans la démocratisation de la génération musicale : pour la première fois, un modèle open source rivalise directement avec les plateformes commerciales fermées en termes de qualité de rendu et de précision des paroles.

Note éditoriale

Que le meilleur modèle de génération musicale disponible gratuitement et exécutable localement soit désormais signé Tencent plutôt qu'une startup californienne — c'est un signal géopolitique autant que technique. SongGeneration 2 ne se contente pas d'approcher la qualité commerciale : il dépasse Suno sur la précision des paroles, historiquement le point le plus fragile de la génération audio. Ce qui change concrètement : un compositeur ou un sound designer peut partir d'un modèle de 4B paramètres, le fine-tuner sur son propre catalogue, et obtenir une base de travail sans passer par aucune plateforme propriétaire. La dépendance aux API fermées n'est plus une fatalité dans la chaîne musicale IA.

Source : Tencent AI Lab — GitHub
Endlessly — Studio Takuya
Endlessly — Studio Takuya

Kling 3.0 : vidéo IA en 4K natif à 60 fps, audio multilingue intégré et cohérence des personnages sur plusieurs plans

Kling AI a officiellement lancé sa suite de modèles 3.0 le 5 février 2026, comprenant Video 3.0, Video 3.0 Omni, Image 3.0 et Image 3.0 Omni, avec un déploiement progressif qui touche maintenant l'ensemble des marchés internationaux. Le modèle Video 3.0 génère des séquences jusqu'à 15 secondes en résolution 4K native (3840×2160) à 60 images par seconde, avec une cohérence temporelle et un niveau de détail inédits dans la génération vidéo IA grand public. L'une des avancées majeures est la synthèse audio native : la version Omni génère de la parole synchronisée dans six langues et accents distincts, permettant des scènes multi-personnages où chaque protagoniste s'exprime dans une langue différente avec synchronisation labiale intégrée. Le système "Elements" introduit une gestion de la cohérence visuelle des personnages sur plusieurs plans — un verrou technique qui avait jusqu'ici limité l'usage de la vidéo IA dans les productions nécessitant des protagonistes récurrents. Le Motion Brush permet de tracer des trajectoires de mouvement directement sur les images, ajoutant un niveau de contrôle créatif que les prompts texte seuls ne permettaient pas d'atteindre — que ce soit pour une séquence vidéo ou pour la mise en scène d'un visuel d'album.

Note éditoriale

Kling 3.0 répond simultanément aux trois objections structurelles qui bloquaient l'adoption professionnelle de la vidéo IA : durée trop courte, absence de son natif, dérive des personnages. Sur ces trois points, les avancées sont réelles. Ce qui reste en suspens, c'est la question du contrôle narratif : générer 15 secondes de 4K convaincant est une chose, assembler ces plans en un montage cohérent en est une autre. Les outils de continuité et de direction de scène n'ont pas encore suivi le rythme des générateurs — c'est là que se situe désormais le plafond de verre de la production vidéo IA.

Source : Kling AI

Runway Gen-4.5 : un nouveau modèle vidéo de référence et l'intégration de 30 modèles concurrents dans une console créative unique

Runway a déployé Gen-4.5, son nouveau modèle de génération vidéo disponible pour tous les plans payants, se positionnant comme une évolution directe de Gen-4 avec une amélioration sensible de la plausibilité du mouvement et de l'adhérence aux prompts sur les scènes à physique complexe. La plateforme intègre désormais plus de 30 modèles tiers — dont Kling 3.0, Kling 2.6 Pro, WAN 2.2, GPT-Image-1.5 et plusieurs modèles précédents — transformant Runway en une console unifiée de génération vidéo, image et texte où cohabitent modèles maison et modèles concurrents. Les tests comparatifs indépendants placent Gen-4.5 en tête sur les scènes à physique contrainte et aux prompts précis, tandis que Google Veo domine sur les rendus stylistiques et cinématographiques — une répartition qui dessine des positionnements complémentaires plutôt que frontalement concurrents. L'intégration d'une image de premier plan en complément du prompt texte améliore significativement la cohérence esthétique entre l'intention créative initiale et le rendu vidéo produit. Ce déploiement consolide la stratégie de Runway comme plateforme-agrégateur : en réunissant ses propres modèles et ceux de concurrents directs, elle mise sur la centralisation du workflow créatif plutôt que sur la seule supériorité technique d'un modèle unique.

Note éditoriale

La décision de Runway d'intégrer les modèles de ses concurrents — Kling, WAN, et d'autres — dans sa propre interface est une lecture de marché intéressante. Plutôt que de parier sur la victoire d'un modèle unique, Runway parie sur la valeur de l'interface et du workflow. C'est une stratégie cohérente à mesure que les modèles de génération se commoditisent : ce qui différencie n'est plus ce que le modèle produit, mais la facilité avec laquelle un créatif peut itérer, comparer et exporter. Une logique qui ressemble à celle des DAW dans la musique — la bataille des plugins n'a pas tué Pro Tools.

Source : Runway — Changelog

Le IA Bulletin est réalisé avec l'assistance de l'IA Claude de la société Anthropic.