NVIDIA Nemotron 3 Nano Omni, l’open multimodal qui voit, écoute et lit dans 25 Go de RAM
NVIDIA a publié le 29 avril 2026 sur Hugging Face, OpenRouter, build.nvidia.com et plus de vingt-cinq plateformes partenaires son nouveau modèle ouvert Nemotron 3 Nano Omni, un omni de 30 milliards de paramètres en mixture-of-experts qui n’active que 3 milliards de poids par token et tient en 25 Go de RAM. Le modèle traite vision, audio, image et texte dans un seul espace de représentation, avec un contexte partagé de 256 000 tokens qui maintient l’état multimodal d’un tour d’agent à l’autre, sans recharger les caches. Sur les charges vidéo et documentaires, NVIDIA annonce un débit jusqu’à neuf fois supérieur aux omni open concurrents, et un score en tête de six leaderboards de compréhension document, vidéo et audio. Le modèle est livré sous licence ouverte avec recettes ComfyUI, kit de fine-tuning NeMo et conteneurs NVIDIA AI Enterprise pour l’exécution sur RTX 6000, GH200 et grappes Blackwell, et plusieurs studios créatifs — Aible, ASI, Foxconn, H Company, Palantir, Pyler — sont déjà cités comme intégrateurs. La trajectoire poursuit celle des Nemotron 2 publiés au premier trimestre, mais aligne désormais l’omni open avec les capacités auparavant réservées aux modèles fermés de Google et OpenAI.
L’intérêt pratique d’un omni qui tient dans 25 Go de RAM n’est pas dans le benchmark : c’est dans la possibilité de faire tourner un agent qui voit et écoute en local, sur une station de travail créative, sans payer un appel API par image regardée ou par seconde de vidéo écoutée. Ce franchissement de seuil arrive plus vite que prévu, alors qu’il y a six mois encore les omni open exigeaient des serveurs H100 et des intégrations spécifiques.
Pour les praticiens des arts génératifs, la conséquence est concrète : la couche de raisonnement multimodal devient un composant patrimonial, qu’on peut empiler dans une chaîne ComfyUI, dans un atelier vidéo, ou dans un dispositif d’installation, sans dépendance permanente à un fournisseur cloud. Le verrou ne sera plus la disponibilité du modèle, mais la qualité du prompt et du dataset d’ancrage.