HappyHorse 1.0 ouvre son API sur fal et Bailian, l’arena vidéo bascule chez Alibaba ATH
Le modèle vidéo HappyHorse 1.0, développé par Alibaba Token Hub (ATH) sous la direction de Zhang Di, est passé en accès développeurs et entreprises sur fal le 26 avril 2026 à 21 h PST et sur Alibaba Cloud Bailian dès le lendemain, après trois semaines passées en tête de l’Artificial Analysis Video Arena dans les classements text-to-video et image-to-video. L’architecture est un Transformer unifié de 15 milliards de paramètres à 40 couches d’auto-attention qui produit la vidéo et l’audio dans une même passe, sans cross-attention ni post-traitement audio séparé, et synchronise nativement le lip-sync sur sept langues dont le français, le japonais et le mandarin. Sortie en 1080p, génération autour de 38 secondes par clip sur une seule H100, et marge de 57 points Elo en image-to-video sur Seedance 2.0 — la plus large jamais enregistrée sur l’arena. Quatre endpoints sont exposés sur fal : text-to-video, image-to-video, reference-to-video, video-edit, et la facturation est calée sur le tarif d’entreprise Bailian avec une remise de 10 % pour l’accès anticipé. Le modèle est placé en concurrence directe avec Wan 2.7, sorti il y a trois semaines par le Tongyi Lab voisin chez Alibaba, et confirme que le groupe de Hangzhou pilote désormais deux écoles de vidéo générative en parallèle.
Deux unités d’Alibaba qui se tirent la bourre sur l’arena vidéo, c’est exactement la situation que Google avait organisée en interne entre Imagen et Veo, et le résultat est le même : la concurrence intra-groupe accélère plus que la concurrence inter-groupes. Tongyi a publié Wan 2.7 avec un Thinking Mode en mode cloud-first ; ATH publie HappyHorse en API ouverte avec l’approche unifiée audio-vidéo qui manquait à Wan. La différence stratégique tient dans le geste API : ouvrir un endpoint à 38 secondes par 1080p sur H100, c’est se positionner comme infrastructure pour les studios, pas comme appli grand public.
Ce qui est nouveau pour les créatifs, c’est le lip-sync multilingue intégré au modèle de base — pas un module rapporté, pas un Wav2Lip de fin de chaîne. Pour la pratique studio, ça veut dire qu’une voix générée par ElevenLabs ou enregistrée en cabine peut s’injecter directement comme conditioning, et le rendu lèvres-mâchoire suit. Les pipelines de clip musical, de pub et de podcast vidéo qui devaient empiler trois modèles distincts gagnent une couche.