AutoMV : un système IA multi-agents génère le clip vidéo complet depuis la chanson
Des chercheurs de la Queen Mary University of London et de plusieurs partenaires académiques ont publié AutoMV, le premier système open source capable de générer un clip vidéo complet à partir d'une chanson entière, de la première mesure au générique de fin. AutoMV analyse la structure musicale, les temps forts et les paroles synchronisées, puis mobilise une équipe d'agents IA spécialisés — scénariste, directeur artistique, monteur — qui planifient les scènes et maintiennent la cohérence visuelle sur toute la durée du morceau. Un agent "vérificateur" supervise l'ensemble, détecte les incohérences et régénère les séquences insuffisantes, garantissant la continuité des personnages et de l'univers visuel d'un bout à l'autre du clip. Les évaluations humaines menées dans le cadre de l'étude montrent qu'AutoMV surpasse significativement les outils commerciaux existants en termes de cohérence narrative et de qualité synchronisée avec la musique. La nature open source du projet réduit le coût d'un clip "professionnel" à celui d'un appel API, ouvrant cette production aux musiciens indépendants, aux labels émergents et aux créateurs sans équipe technique.
Ce que propose AutoMV n'est pas une interface de plus — c'est une architecture de production. La modélisation en agents spécialisés (scénariste, directeur, monteur) rejoue la structure d'une équipe humaine, avec ce que ça implique : des décisions déléguées à chaque nœud, une supervision sommaire à la sortie. Pour un musicien indépendant, le gain pratique est immédiat et difficile à contester. Pour un artiste avec une vision précise de son univers visuel, la question reste entière : à quelle étape du pipeline reprend-on la main ?