IA Bulletin — 8 mai 2026

Runway Characters et l'avatar conversationnel temps réel /
GPT-Realtime-2 et la voix dotée de raisonnement /
Inworld TTS-2 et la voix qui écoute avant de parler

Runway Characters transforme une seule image en agent vidéo conversationnel temps réel à 24 fps HD

Runway a publié le 4 mai 2026 un nouveau produit, Runway Characters, qui transforme une image de référence unique en avatar vidéo conversationnel diffusé en direct à 24 images par seconde HD, avec une latence de bout en bout de 1,75 seconde entre la fin de la phrase de l'utilisateur et le début de la réponse animée du personnage. Le système est bâti sur GWM-1, le world model général de l'éditeur, qui produit le lip-sync, les expressions faciales et les micro-mouvements de tête sans modèle 3D intermédiaire — la cohérence visuelle entre images successives est entièrement portée par la prédiction de pixels conditionnée sur l'audio entrant. Le moteur tourne avec environ 37 millisecondes par image côté serveur, performance qui rend la conversation perçue comme fluide plutôt que retardée. La fonctionnalité est disponible immédiatement via l'API Runway, l'application web et les apps mobiles, et la BBC et Silverside figurent parmi les premiers partenaires actifs sur le produit. Le déplacement le plus net porte sur l'objet d'usage : Characters n'est plus un outil de génération vidéo offline mais une brique d'incarnation qu'on insère dans un produit (tutorat, support, scénographie de marque), au même rang que le personnage visuel d'un album incarne longtemps une œuvre musicale dans la mémoire des auditeurs.

Note éditoriale

Le passage du texte-vers-vidéo offline au character-as-a-stream est le pivot intéressant. Pendant trois ans, la vidéo générative s'est jouée à temps différé : un prompt, plusieurs minutes d'attente, un fichier livré. Runway Characters change la mise en scène — le personnage n'est plus un livrable, c'est un service vivant qu'on appelle. Cette bascule rapproche structurellement la génération vidéo des codes du jeu vidéo et du livestream, deux mondes où la latence est la seule métrique qui compte vraiment.

Pour les studios qui produisent des contenus narratifs, l'angle pratique mérite attention. Une image fixe minutieusement composée — une pochette, un portrait éditorial, une figure tutélaire dessinée pour un disque — peut désormais être prolongée en présence interactive sans repasser par la modélisation 3D ni le motion capture. Les implications sur le coût d'un teaser de sortie ou d'une campagne de promotion ne sont pas anecdotiques. Reste la question, toujours sous-jacente, de la limite : à partir de quand un visage généré qui parle « comme l'artiste » devient-il une représentation que l'artiste n'a pas autorisée ? La frontière sera juridique avant d'être technique.

Sources : Runway News — Introducing Runway Characters — Runway News — Building Real-Time Video Agent from a Single Image — Eyerys — How Runway Characters Transforms Photo Into Talking Agent

OpenAI publie GPT-Realtime-2, premier modèle vocal avec raisonnement de classe GPT-5 et fenêtre 128K

OpenAI a annoncé le 7 mai 2026, par la voix de Greg Brockman sur X, la mise en production de trois nouveaux modèles audio temps réel — GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper — disponibles immédiatement via l'API. Le modèle phare est présenté comme le premier modèle vocal doté du raisonnement de classe GPT-5, avec une fenêtre de contexte qui passe de 32K à 128K tokens et un usage d'outils en cours de conversation : l'agent peut consulter un agenda, lancer une recherche ou exécuter une action et verbaliser ce qu'il fait au moment où il le fait. Sur le banc d'essai Big Bench Audio, GPT-Realtime-2 (haute qualité) gagne 15,2 points sur GPT-Realtime-1.5, et la version « xhigh » progresse de 13,8 points sur Audio MultiChallenge en suivi d'instructions. GPT-Realtime-Translate traite 70 langues sources vers 13 cibles en restant calé sur le rythme de l'orateur, tandis que GPT-Realtime-Whisper diffuse la transcription en flux continu pendant que l'utilisateur parle. La grille tarifaire est annoncée à 32 dollars par million de tokens audio entrants et 64 dollars par million de tokens audio sortants sur le modèle phare, pendant que Zillow revendique en pilote un gain de 26 points sur le taux de succès de ses appels téléphoniques.

Note éditoriale

Le saut intéressant n'est pas le score Big Bench Audio mais l'élargissement de la fenêtre de contexte à 128K tokens. Une voix qui retient quatre fois plus de contexte cesse d'être un assistant transactionnel et commence à ressembler à un interlocuteur qui suit un fil. C'est la condition technique préalable à un usage qui dépasse la séance de quelques minutes — préparation d'un live, séance de répétition, dictée éditoriale longue, accompagnement d'enregistrement studio.

Cela dit, la grille tarifaire reste un mur. Trente-deux dollars par million de tokens audio entrants signifie qu'une heure de conversation continue côté production peut coûter plusieurs euros, ce qui exclut tout produit grand public à coût marginal nul. La promesse pratique vise donc d'abord les workflows professionnels où la voix est instrumentale au métier — relation client haute valeur, formation continue, services à abonnement — pas la conversation gratuite de masse. Reste à voir si la tarification baissera assez vite pour que l'usage cesse d'être réservé aux comptes sérieux.

Sources : OpenAI — Introducing GPT-Realtime and Realtime API updates — 9to5Mac — OpenAI has new voice models that reason, translate and transcribe as you speak — The Tech Portal — OpenAI launches three new GPT-Realtime audio models — Interesting Engineering — OpenAI launches GPT-Realtime-2 for smarter live voice AI interactions

Inworld AI ouvre Realtime TTS-2, modèle vocal en boucle fermée qui prend l'audio brut de l'échange en entrée

Inworld AI a publié le 5 mai 2026 son nouveau modèle Realtime TTS-2 en research preview sur l'Inworld API et l'Inworld Realtime API, dans une logique architecturale qui rompt avec le standard du secteur. Là où les TTS classiques reçoivent un transcript et produisent une voix, TTS-2 prend en entrée l'audio brut des tours précédents de la conversation et capte le ton, le rythme et l'état émotionnel de l'utilisateur avant de répondre — c'est la « boucle fermée » revendiquée par l'éditeur, qui rapproche la synthèse vocale du fonctionnement d'un acteur en réplique plutôt que d'un narrateur en récit. La direction vocale s'exprime en langage naturel (« plus pressé », « presque chuchoté », « hésitant ») là où les API précédentes proposaient une enum d'émotions figée. Le clonage de voix passe par un endpoint /voices/v1/voices:clone qui ingère un échantillon de référence de 5 à 15 secondes et renvoie un voice ID utilisable comme n'importe quelle voix native, avec préservation de l'identité dans le switch cross-lingual couvrant plus de 100 langues. Une dernière fonction, Advanced Voice Design, permet de fabriquer une voix entièrement à partir d'une description en prose — sans aucun échantillon réel — pour des personnages qui n'existent que dans la fiction.

Note éditoriale

L'argument industriel d'Inworld n'est pas le clone à 5 secondes — c'est la direction en langage naturel. Les enums fixes du précédent paradigme (joyeux, triste, pressé) imposaient au designer sonore de choisir parmi des cases dont la combinaison ne représentait jamais l'intention vraie. Une instruction en prose comme « presque chuchoté, dernière phrase légèrement plus tendue » porte une granularité qui ressemble à une note de mise en scène plutôt qu'à un paramètre. La voix devient un instrument dirigé au sens du studio.

Le risque, miroir, vaut d'être posé. Une voix synthétique qui s'adapte au tempo émotionnel de son interlocuteur en temps réel ouvre des usages d'accompagnement vocal — coaching, éducation, soin — où la frontière entre adaptation utile et manipulation est ténue. Les conditions d'utilisation d'Inworld interdisent l'usurpation d'identité et le contenu de désinformation, mais le modèle, une fois public, vit sa vie. La question n'est pas si la voix synthétique deviendra indiscernable, mais qui décide de la mise en scène.

Sources : Inworld AI Blog — Realtime TTS-2, a new frontier voice model — MarkTechPost — Inworld AI Launches Realtime TTS-2, A Closed-Loop Voice Model — Replicate — Inworld Realtime TTS 2.0

← Bulletin précédent Archives

Runway Characters et l'avatar conversationnel temps réel /GPT-Realtime-2 et la voix dotée de raisonnement /Inworld TTS-2 et la voix qui écoute avant de parler

Runway Characters transforme une seule image en agent vidéo conversationnel temps réel à 24 fps HD

OpenAI publie GPT-Realtime-2, premier modèle vocal avec raisonnement de classe GPT-5 et fenêtre 128K

Inworld AI ouvre Realtime TTS-2, modèle vocal en boucle fermée qui prend l'audio brut de l'échange en entrée

Runway Characters et l'avatar conversationnel temps réel /
GPT-Realtime-2 et la voix dotée de raisonnement /
Inworld TTS-2 et la voix qui écoute avant de parler