IA Bulletin — 3 avril 2026

LTX-2 en 4K local /
Firefly à la main /
SongGeneration 2 au-delà de Suno

LTX-2 : vingt secondes en 4K, son synchronisé, poids ouverts — et ça tourne sur RTX

Lightricks a rendu public LTX-2 en janvier 2026, le premier modèle à générer nativement de la vidéo et du son synchronisés — jusqu'à vingt secondes en 4K à 50 images par seconde — avec des poids entièrement ouverts. Le modèle s'appuie sur 19 milliards de paramètres répartis entre la génération vidéo (14 milliards) et la génération audio (5 milliards), avec une synchronisation labiale et une fidélité acoustique inédites pour un modèle libre. NVIDIA a annoncé le 2 avril l'intégration de LTX-2 dans ses outils RTX, permettant de faire tourner le modèle en local via ComfyUI avec des optimisations NVFP8 sur les cartes grand public. La licence autorise un usage académique et commercial libre pour les structures dont le chiffre d'affaires est inférieur à dix millions de dollars, les organisations plus importantes ayant accès au même modèle ouvert via une licence commerciale avec support enterprise. L'accès se fait via l'API LTX, la plateforme ltx.io, et des intégrations Fal, Replicate, ComfyUI et OpenArt.

Note éditoriale

Ce qui distingue LTX-2 des précédentes tentatives open source n'est pas uniquement la résolution — c'est la synchronisation audio-vidéo dans un modèle unique. Jusqu'ici, le son était généré séparément et aligné après coup, avec les approximations que cela implique. Avoir les deux dans le même diffuseur, entraînés conjointement, change structurellement la façon dont le modèle peut représenter la relation entre image et son.

La mise sur carte grand public via NVIDIA RTX est le signal le plus intéressant de cette séquence. Non par enthousiasme pour la "démocratisation" — ce mot usé —, mais parce que cela déplace la question de la puissance de calcul vers celle de la direction artistique. L'outil existe, il tourne en local : qui va s'en emparer, avec quelle vision, vers quel résultat ? La question de la ressource cesse d'être le goulot d'étranglement.

La structure de licence — ouverte sous dix millions de dollars — est un choix calculé. Elle maximise l'adoption dans la communauté créative indépendante tout en préservant un modèle commercial pour les grandes structures. C'est une décision industrielle cohérente, pas un acte de générosité. Elle méritera d'être réexaminée si LTX-2 devient un standard de fait.

Source : Lightricks — LTX-2 sur GitHub
Midnight whispers — Studio Takuya
Midnight whispers — Studio Takuya

Firefly Custom Models : Adobe laisse enfin les créatifs entraîner le modèle sur leur propre style

Adobe a lancé en bêta publique le 19 mars 2026 les Firefly Custom Models, une fonctionnalité permettant aux créatifs d'entraîner le modèle d'image d'Adobe sur leurs propres visuels pour en capturer le style, le personnage ou l'esthétique photographique. Le modèle personnalisé préserve des paramètres fins comme le poids du trait, la palette colorimétrique, l'éclairage et les traits distinctifs d'un personnage à travers les générations successives, permettant une exploration de directions créatives sans perdre la cohérence visuelle — un avantage décisif pour la direction artistique d'une sortie musicale ou l'identité graphique d'un catalogue. La plateforme Firefly donne désormais accès à plus de trente modèles parmi lesquels Google Nano Banana 2 et Veo 3.1, Runway Gen-4.5, Kling 2.5 Turbo et le modèle Firefly Image 5 d'Adobe, désormais disponible en version générale. Un accès illimité aux générations image et vidéo est proposé aux abonnés payants Photoshop jusqu'au 9 avril 2026. L'ensemble des fonctions de retouche — remplissage génératif, suppression d'objets, expansion de cadre, montée en résolution — est réuni dans le Firefly Image Editor.

Note éditoriale

L'entraînement sur ses propres images est une revendication ancienne dans la communauté des artistes utilisant des outils génératifs — et une promesse que les grandes plateformes ont longtemps évitée, en partie pour des raisons légales, en partie parce que cela déplace le pouvoir vers l'utilisateur. Adobe franchit ce pas, et il faut en mesurer la portée réelle, sans enthousiasme réflexe.

Ce qui est intéressant dans l'approche d'Adobe n'est pas la technique — d'autres, souvent en open source, permettaient déjà d'entraîner des LoRA ou des DreamBooth sur ses propres visuels depuis 2022. C'est l'intégration dans un workflow créatif professionnel, avec une interface pensée pour les praticiens qui ne veulent pas de ligne de commande. La barrière d'accès descend, ce qui élargit le bassin d'utilisateurs potentiels.

La question qui reste ouverte est celle de la souveraineté. À qui appartient le modèle entraîné ? Sur quels serveurs réside-t-il ? Ces questions de contrôle sur les données stylistiques — le style étant le capital immatériel central d'un artiste — méritent d'être posées avant d'entraîner son esthétique dans un cloud commercial. Adobe n'a pas communiqué de réponses claires à ce stade, et cette absence est en elle-même une information.

Source : Adobe Blog — Firefly Custom Models

SongGeneration 2 : Tencent en open source, et Suno commence à transpirer

Tencent a rendu public le 1er mars 2026 SongGeneration 2 (aussi désigné LeVo 2), un modèle de génération musicale de 4 milliards de paramètres entraîné par alignement multi-préférences, désormais disponible sur Hugging Face et GitHub sous licence Apache 2.0. Le modèle obtient un taux d'erreur phonémique de 8,55 %, contre 12,4 % pour Suno v5 et 9,96 % pour Mureka v8, le plaçant au niveau des meilleurs systèmes commerciaux selon une évaluation conduite auprès de vingt professionnels de la musique sur six dimensions : qualité globale, mélodie, arrangement, rendu instrumental, rendu vocal et structure. LeVo 2 supporte des paroles multilingues, un contrôle fin des attributs musicaux par section — intro, couplet, refrain —, et une version rapide qui génère un titre complet en moins d'une minute. Une version 7 milliards de paramètres offre des performances supplémentaires, et l'ensemble du code d'inférence ainsi que les poids pré-entraînés sont disponibles publiquement. C'est, selon ses auteurs, la première démonstration qu'un système de génération de chansons au niveau commercial peut être reproduit avec des ressources académiques, sans infrastructure propriétaire.

Note éditoriale

Il est notable que la parité avec les meilleurs systèmes commerciaux soit atteinte en open source avec des ressources académiques. Cela suit un schéma désormais connu : les grands acteurs ouvrent la voie, la recherche académique et les acteurs indépendants les rattrapent en quelques trimestres, souvent en rendant public ce que les premiers gardaient fermé. Le délai entre publication d'un modèle commercial et sa réplication open source se réduit à chaque cycle.

Pour les compositeurs et les producteurs, la vraie question n'est pas de savoir si SongGeneration 2 "sonne bien" — les benchmarks sur ce point sont encourageants. C'est de savoir dans quelles conditions cela tourne en local, sans abonnement, sans données envoyées sur un serveur tiers. Apache 2.0 donne une réponse claire sur la licence. Reste la question pratique : combien de VRAM, quel matériel, quel temps de génération sur une configuration non spécialisée — questions que les publications académiques laissent souvent sans réponse claire.

Le fait que Tencent publie en open source un modèle au niveau de Suno v5 n'est pas un acte de générosité — c'est une stratégie industrielle. L'effet d'entraînement sur l'écosystème est réel et mesurable, et c'est ce qui compte, quelle que soit l'intention initiale. Le mouvement est structurellement favorable à l'indépendance des créatifs, même s'il est motivé par d'autres logiques.

Source : Tencent — SongGeneration 2 sur Hugging Face

Le IA Bulletin est réalisé avec l'assistance de l'IA Claude de la société Anthropic.