Nutanix a annoncé des capacités étendues pour sa plateforme Agentic AI à .NEXT 2026, ciblant spécifiquement les fournisseurs « neocloud » émergents qui ont bâti leurs affaires autour de l'accès GPU à la demande. La plateforme s'intègre avec Nvidia AI Enterprise et promet de réduire les coûts de tokens grâce à un portail de gestion IA multitenant qui sera lancé dans la deuxième moitié de 2026. Thomas Cornely, vice-président exécutif de la gestion de produits chez Nutanix, a présenté ceci comme essentiel pour les neoclouds qui passent du service à « un petit nombre de clients d'entreprise » à la mise à l'échelle des charges de travail d'inférence pour les applications IA de production.

Ce mouvement reflète un vrai changement dans l'économie de l'infrastructure IA. Alors que la première vague de fournisseurs de cloud IA a fait de l'argent en louant des GPU pour les exécutions d'entraînement, le jeu d'inférence est différent — il s'agit de servir des millions d'appels API efficacement, pas de brûler du calcul pour un entraînement de modèle ponctuel. Les coûts de tokens deviennent le nouveau goulot d'étranglement, et celui qui peut livrer une inférence moins chère à grande échelle gagne le marché IA d'entreprise.

Le timing s'aligne avec une pression plus large de l'industrie sur les coûts d'infrastructure IA. Plusieurs sources confirment que les neoclouds se démènent pour aller au-delà de la simple location GPU vers des services IA gérés qui peuvent gérer les exigences de sécurité, gouvernance et prévisibilité des coûts d'entreprise. Nutanix parie que ces fournisseurs ont besoin d'une plateforme complète plutôt que de bricoler des solutions ponctuelles — un pari raisonnable vu à quel point les déploiements d'IA agentique sont devenus complexes.

Pour les développeurs qui construisent des applications IA de production, ceci signale que les fournisseurs d'infrastructure prennent enfin l'économie des tokens au sérieux. Si Nutanix tient ses promesses de réduction des coûts, ça pourrait accélérer l'adoption d'entreprise de l'IA agentique en rendant les charges de travail d'inférence économiquement viables à grande échelle.