Hermes Agent de Nous Research a franchi 140 000 étoiles GitHub en moins de trois mois et est, selon NVIDIA citant OpenRouter, l'agent le plus utilisé au monde la semaine dernière. Le billet de NVIDIA mercredi positionne Hermes comme la contrepartie hardware-local des piles d'agents hébergées chez AWS, Google et Anthropic, avec optimisation pour RTX PCs, stations de travail RTX PRO et la box IA personnelle DGX Spark (128 Go de mémoire unifiée, 1 petaflop de performance IA). Quatre choix de design distinguent Hermes du palier wrapper : self-evolving skills (l'agent écrit et raffine son propre set de skills entre runs), sub-agents contenus (workers isolés et éphémères avec une portée d'outils ciblée, ce qui garde les fenêtres de contexte assez petites pour tourner sur modèles locaux), fiabilité curée par Nous (chaque skill, outil et plug-in livré est stress-testé avant release), et le cadrage « active orchestration » — Hermes se positionne comme un runtime, pas comme un shim mince au-dessus du modèle.
Le côté modèle de l'histoire, c'est Qwen 3.6, la nouvelle famille open-weight d'Alibaba. NVIDIA affirme que le nouveau modèle 35B surpasse les modèles 120B de la génération précédente tout en tournant sur environ 20 Go de mémoire (contre 70 Go+ pour la classe 120B), et que le nouveau Qwen 3.6 27B dense égale la précision de Qwen 3.5 à 397B à un seizième de la taille. Les deux revendications sont porteuses pour le récit « tu peux faire tourner ça en local » et veulent une vérification de harnais tiers — la copie marketing de NVIDIA ne divulgue pas sur quelles évals ces comparaisons reposent, et les revendications de compression capacité-par-paramètre ont un track record de s'adoucir quand les benchmarks indépendants atterrissent. Traite le ratio sous-jacent (35B à la performance d'une classe 120B) comme l'hypothèse à tester, pas le résultat vérifié, jusqu'à ce qu'OpenLLM ou LMSYS confirment.
La lecture écosystémique ici, c'est la contre-thèse local-stack à tout ce qui s'expédie cette semaine. AWS WorkSpaces donne aux agents des desktops virtuels hébergés ; le pointeur Gemini de Google garde les agents dans le cloud et suit le curseur humain ; MDASH de Microsoft est enterprise-only et livré en SaaS. Hermes est l'opposé — agnostique au modèle, agnostique au fournisseur, tourne out-of-box avec LM Studio et Ollama via llama.cpp, conçu pour un agent local always-on sur une station de travail sous le bureau de quelqu'un. L'intérêt stratégique de NVIDIA est évident (vendre plus d'unités RTX PRO et DGX Spark) mais le pattern sous-jacent est génuinement indépendant du vendor : assez de capacité s'est compressée dans des open weights classe 30B pour que le workflow « un agent tourne toute la journée sur mon matériel, raffine ses propres skills, appelle dans mes outils locaux » soit maintenant mécaniquement possible. Le classement OpenRouter, s'il tient, est la première vraie preuve qu'un agent open-source sans vendor a gagné la bataille de la part-de-l'esprit développeur contre Claude Code, Codex et les agents fermés.
Pour les builders : clone le repo GitHub d'Hermes, paire-le avec Qwen 3.6 27B ou 35B via Ollama ou LM Studio, et benchmark-le sur ton workflow réel avant de faire confiance à l'une ou l'autre revendication. Deux choses à surveiller : (1) si des évals indépendantes confirment la compression Qwen 3.6 27B-égale-397B — c'est la revendication d'ingénierie porteuse de toute la pile ; (2) si les skills auto-évolutives d'Hermes accumulent vraiment de la capacité utile entre runs, ou dérivent à la manière des tentatives précédentes d'agents auto-améliorants. Le design provider/model-agnostic est ce qui rend Hermes intéressant au-delà du pairing NVIDIA — si Qwen 3.6 déçoit, tu swapes Llama 4 ou Mistral Large et la couche agent reste. Le pattern est la nouvelle ; le bundle hardware spécifique est la couche marketing.
