Début avril, un modèle de génération vidéo baptisé HappyHorse-1.0 est apparu sans affiliation sur la plateforme de benchmarking Artificial Analysis, grimpant silencieusement au sommet des classements mondiaux en évaluation aveugle. En text-to-video sans audio, le modèle a atteint un score Elo de 1333, première place mondiale — et 1392 en image-to-video, là aussi en tête. Le mystère a duré quelques jours avant qu'Alibaba ne confirme la paternité du projet, développé par le Future Life Lab de Taotian Group sous la direction de Zhang Di, ancien vice-président de Kuaishou et responsable technologique de Kling AI. HappyHorse supporte les quatre modalités de génération vidéo — texte vers vidéo et image vers vidéo, chacune avec ou sans audio natif — une polyvalence rare dans un seul modèle. L'accès API est prévu pour le 30 avril, et l'équipe a confirmé la publication complète en open source avec poids du modèle sur GitHub.
Note éditoriale
La stratégie du masque est devenue un classique de l'industrie de l'IA : publier un modèle anonymement sur une arène de benchmarking, attendre qu'il grimpe au sommet, puis lever le voile. Le procédé est calculé, mais il a le mérite de forcer l'évaluation sur la qualité du résultat plutôt que sur la réputation du labo. Quand personne ne sait que c'est Alibaba, le classement ne doit rien à la marque. C'est un luxe que les petites équipes n'ont pas — et dont les grandes ne se privent pas.
Le parcours de Zhang Di est un fil narratif à suivre. Passer de Kuaishou — la plateforme de vidéos courtes rivale de TikTok en Chine — à la direction d'un modèle de génération vidéo chez Alibaba n'est pas un changement de carrière, c'est une continuité logique. Celui qui a géré la distribution de milliards de vidéos humaines construit désormais la machine qui en produit. La compréhension intime de ce que les utilisateurs regardent, partagent et créent est un avantage compétitif que les laboratoires de recherche pure ne possèdent pas.
L'annonce de l'open source complet est la vraie nouvelle. Un modèle qui domine les classements en text-to-video ET en image-to-video, disponible avec ses poids sur GitHub, change la donne pour les créateurs indépendants et les petits studios qui n'ont pas les moyens d'un abonnement Runway ou d'une API facturée à la seconde. La démocratisation de la vidéo générative ne passe pas par la gratuité des plateformes fermées — elle passe par la disponibilité des modèles eux-mêmes.
Google a intégré son modèle de génération vidéo Veo 3.1 directement dans Google Vids, son outil de création vidéo en ligne, et l'a rendu accessible gratuitement à tous les détenteurs d'un compte Google standard. Chaque utilisateur dispose de dix générations vidéo par mois, sans abonnement, sans carte bancaire, sans condition préalable. L'interface permet de saisir un prompt textuel ou de charger une image de référence, et Veo 3.1 produit des clips de huit secondes en résolution 720p directement dans l'éditeur. La limitation principale concerne l'audio : contrairement au modèle complet Veo 3.1 qui génère son et image simultanément, la version Google Vids est vidéo seule. Cette ouverture intervient dans un contexte de compétition intense sur le marché de la vidéo générative, quelques semaines après la fermeture annoncée de Sora et l'arrivée de modèles concurrents comme Kling 3.0, Seedance 2.0 et HappyHorse.
Note éditoriale
Gratuit. Le mot est lâché, et il change tout. Quand Google rend Veo 3.1 accessible sans frais à quiconque possède une adresse Gmail, ce n'est pas un geste de générosité — c'est une manœuvre de colonisation. Rendre un outil gratuit quand les concurrents facturent, c'est la stratégie qui a fait de Chrome le navigateur dominant et de YouTube la plateforme vidéo unique. L'objectif n'est pas le revenu direct : c'est l'habitude. Dix millions de personnes qui découvrent la génération vidéo par IA via Google Vids ne migreront pas facilement vers Runway ou Pika ensuite.
Huit secondes en 720p, sans audio. Les limitations sont réelles et suffisamment marquées pour que l'outil ne menace pas encore les solutions professionnelles. Mais elles sont aussi suffisamment légères pour que l'usage créatif amateur explose. Un clip de huit secondes, c'est un reel Instagram. C'est une transition de présentation. C'est un concept visuel qu'on teste avant de le produire en qualité supérieure. Pour un graphiste indépendant ou un musicien qui cherche un visuel animé pour accompagner un morceau, dix essais gratuits par mois suffisent à explorer.
Le timing est chirurgical. Sora ferme le 26 avril, laissant des dizaines de milliers d'utilisateurs sans outil. Kling 3.0 monte en puissance mais reste payant. HappyHorse promet l'open source mais n'est pas encore disponible. Google s'engouffre dans la fenêtre avec un produit immédiatement accessible, intégré à un écosystème que tout le monde utilise déjà. Ce n'est pas le meilleur modèle vidéo du marché — c'est celui qui a le moins de friction à l'entrée. Et dans l'histoire de la technologie, la friction minimale gagne presque toujours.
Des chercheurs de Stanford, réunissant informatique, psychologie cognitive et sciences de l'éducation, développent une nouvelle génération d'outils open source destinés à améliorer la collaboration entre artistes visuels et modèles génératifs. Le constat de départ est formulé sans détour par Maneesh Agrawala, professeur d'informatique : les modèles actuels sont de piètres collaborateurs — le créateur ne peut pas anticiper ce que l'IA produira à partir d'un prompt donné. L'outil ControlNet introduit deux phases distinctes dans la génération d'images — le blocage et le détail — reproduisant le processus naturel du dessinateur qui commence par une esquisse grossière avant de la raffiner. FramePack étend ce principe à la vidéo 3D, permettant de générer des séquences multi-scènes à partir de prompts textuels tout en hiérarchisant les scènes selon leur importance narrative. L'objectif déclaré est que des créateurs de tous niveaux puissent exprimer leurs idées en combinant langage naturel, exemples visuels et fragments de code dans un flux de travail sans friction.
Note éditoriale
La phrase de Maneesh Agrawala mérite d'être entendue dans toute sa sécheresse : les modèles sont de piètres collaborateurs. Ce n'est pas un reproche adressé à leur capacité de production — celle-ci est devenue spectaculaire. C'est un reproche adressé à leur incapacité à suivre une intention. La différence est fondamentale. Un outil puissant qui ne répond pas à la direction qu'on lui donne n'est pas un outil de création — c'est un générateur aléatoire sophistiqué. L'intérêt de cette recherche est de nommer le problème plutôt que de le contourner.
L'approche en deux phases de ControlNet — blocage puis détail — n'est pas une innovation technique isolée. C'est la formalisation d'un processus que tout dessinateur connaît depuis des siècles : l'esquisse précède le rendu. Que des chercheurs en informatique jugent nécessaire de réapprendre ce processus à une machine dit quelque chose sur l'écart entre la manière dont les modèles fonctionnent et la manière dont les humains créent. Les modèles génératifs actuels produisent tout en même temps — la composition, la couleur, le détail — dans un seul passage. Le résultat peut être impressionnant, mais il échappe au contrôle granulaire dont un artiste a besoin pour travailler, corriger, itérer.
La dimension la plus intéressante de ce projet est peut-être son ancrage institutionnel. Ce ne sont pas des ingénieurs d'une entreprise privée qui cherchent à vendre un produit. Ce sont des chercheurs en psychologie cognitive et en éducation qui collaborent avec des informaticiens pour comprendre comment les humains créent — et comment une machine pourrait s'y adapter plutôt que l'inverse. Dans un paysage dominé par la course à la performance des modèles, cette inversion de perspective — adapter la machine au processus humain plutôt que l'humain au processus machine — est suffisamment rare pour être signalée.