IA Bulletin — 4 avril 2026

ElevenLabs en musique /
Microsoft à double vitesse /
Clés ouvertes pour Gemma 4

La voix avait fait sa fortune — la musique sera-t-elle son empire ?

ElevenLabs a lancé le 1er avril 2026 ElevenMusic, une application iOS de génération musicale par IA, positionnée en concurrent direct de Suno et Udio. L'application permet de créer des morceaux complets à partir d'instructions en langage naturel, de régler la longueur, la présence de paroles et le style d'écriture, et de remixer des créations existantes via des prompts textuels. Un système de découverte intégré — stations en direct, albums préconstruits, palettes d'ambiance (Focus, Energy, Relax, Late Night, Cosmic, Chill) — vient doubler la fonction de création d'une fonction de diffusion, mimant les codes des grandes plateformes de streaming. L'accès est gratuit jusqu'à sept chansons par jour ; un abonnement Pro à 9,99 dollars par mois ou 95,90 dollars par an débloque des limites étendues, davantage de styles et de capacités de stockage. ElevenLabs, dont la réputation repose sur la synthèse et le clonage vocal, marque ainsi un pivot stratégique : de la voix comme outil vers la musique comme produit — et peut-être demain vers les visuels de sortie d'album qui l'accompagnent.

Note éditoriale

Ce pivot mérite d'être lu pour ce qu'il est : un mouvement de diversification défensive. ElevenLabs sait que la synthèse vocale se banalise — chaque modèle de langage ou presque intègre désormais une voix de sortie correcte. Entrer sur le marché de la génération musicale, c'est aller chercher de la valeur là où la concurrence n'a pas encore figé les usages.

La question que pose ElevenMusic n'est pas technique — la génération musicale par prompt existe depuis deux ans, les résultats de Suno et Udio sont bien documentés. La question est de savoir si ElevenLabs peut transformer une application de création en plateforme de consommation. La présence de stations, de charts et de mixes par ambiance suggère que le modèle économique envisagé n'est pas seulement la vente de générations, mais une forme de streaming d'IA — un Spotify dont les artistes seraient des modèles. Ce déplacement-là est structurel, et ses implications pour les créateurs humains restent entièrement ouvertes.

L'application n'est pour l'heure disponible que sur iOS. Ce choix de déploiement ne dit rien sur la qualité du modèle sous-jacent — ElevenLabs n'en précise pas les fondations techniques —, mais signale une stratégie de lancement orientée grand public plutôt que vers les studios ou les créatifs professionnels.

Source : Dataconomy — ElevenLabs Launches ElevenMusic For AI Song Creation On iPhone
Eurydice — Studio Takuya
Eurydice — Studio Takuya

MAI-Image-2 : quand l'infrastructure se met à faire de l'image

Le 2 avril 2026, Microsoft a présenté simultanément trois modèles fondamentaux développés en interne — un système de transcription vocale, un moteur de génération de voix et un nouveau générateur d'images, MAI-Image-2. Ce dernier se positionne d'emblée dans le top trois du classement Arena.ai et propose des temps de génération au moins deux fois plus rapides que son prédécesseur sur les plateformes Foundry et Copilot. La résolution maximale atteint 1 024 × 1 024 pixels, avec une attention particulière portée à la précision du rendu des lumières, des tons de peau et du texte dans l'image. Le modèle prend en entrée jusqu'à 32 000 tokens de description textuelle. Déjà intégré dans Bing et PowerPoint, il est facturé 33 dollars par million de tokens d'images en sortie via Microsoft Foundry, et accessible à tous via le nouveau MAI Playground. Il alimente également Copilot, Azure Speech et d'autres produits Microsoft déjà en production.

Note éditoriale

Ce qui est intéressant dans MAI-Image-2 n'est pas la performance benchmark — troisième sur Arena.ai, c'est une position honorable mais non décisive dans un classement qui change chaque semaine. Ce qui l'est davantage, c'est la stratégie de déploiement : Bing, PowerPoint, Copilot. Microsoft ne cherche pas à conquérir les créatifs professionnels — elle cherche à équiper l'ensemble de sa base installée d'une capacité d'image décente, sans friction, sans abonnement supplémentaire.

Le résultat probable n'est pas une révolution dans les pratiques créatives, mais une normalisation du visuel généré par IA dans les présentations d'entreprise, les communications internes et les documents de travail. Ce déplacement-là est moins spectaculaire qu'un Midjourney 7 ou qu'un Flux Pro 2, mais son échelle est sans commune mesure : des centaines de millions d'utilisateurs de Microsoft 365 auront accès à la génération d'images sans même avoir cherché à s'y connecter.

La question du goût, dans ce contexte, s'efface derrière celle de l'adéquation fonctionnelle. L'image produite sera statistiquement convenable — et c'est suffisant pour la plupart des usages auxquels elle est destinée. Que cela change ou non la perception du visuel dans l'entreprise reste à observer.

Source : eWeek — Microsoft Launches MAI-Image-2, Its Most Advanced AI Image Model Yet

Gemma 4 : les poids sont ouverts, le regard reste à construire

Google a annoncé le 3 avril 2026 la publication de Gemma 4, sa nouvelle famille de modèles ouverts, sous licence Apache 2.0, permettant un usage commercial libre. La famille se décline en quatre variantes : deux modèles edge à empreinte mémoire réduite (E2B et E4B, activant respectivement 2 et 4 milliards de paramètres en inférence) et deux modèles plus puissants (26B en Mixture of Experts et 31B dense). Ce dernier s'est classé troisième modèle ouvert mondial sur le classement Arena.ai au moment de sa publication. Gemma 4 est le premier modèle de la famille à traiter nativement texte, images et vidéo ; les variantes edge intègrent également l'audio en entrée pour la reconnaissance vocale. La fenêtre de contexte atteint 128 000 tokens pour les modèles edge et 256 000 tokens pour les modèles denses. Google met en avant les capacités de function calling, de sortie JSON structurée et de suivi d'instructions systèmes natives, visant une intégration directe dans des pipelines agentiques.

Note éditoriale

Gemma 4 est un mouvement de gouvernance autant qu'une avancée technique. En publiant sous Apache 2.0 un modèle multimodal capable de traiter images, vidéo et audio, Google contribue à normaliser l'accès à ces capacités hors des plateformes fermées. Pour un créatif souhaitant construire un outil d'analyse visuelle ou d'annotation sonore sans dépendre d'une API commerciale, c'est une ressource concrète — à condition de disposer de l'infrastructure pour la faire tourner.

Le modèle E2B en particulier mérite l'attention : activer 2 milliards de paramètres en inférence tout en traitant texte, image et audio représente une équation intéressante pour les usages embarqués ou les configurations à ressources limitées. La question n'est pas de savoir si Gemma 4 dépasse les modèles propriétaires de référence — pour l'instant, non — mais de mesurer ce qu'un créatif peut en faire en local, sans facturation au token, sans contrainte de confidentialité.

La multimodalité des modèles ouverts franchit ici un seuil. Il y a dix-huit mois, traiter des images en local relevait encore de l'expérimentation ; aujourd'hui, Gemma 4 le propose en quatre tailles, disponibles sur Hugging Face à la publication. La vitesse à laquelle ces capacités descendent vers les modèles accessibles sans GPU dédié est le chiffre qui compte — pas le classement Arena.

Source : Hugging Face Blog — Welcome Gemma 4: Frontier multimodal intelligence on device