Hermes Agent de Nous Research cruzó las 140 000 estrellas en GitHub en menos de tres meses y es, según NVIDIA citando OpenRouter, el agente más usado del mundo la semana pasada. El post de NVIDIA del miércoles posiciona a Hermes como la contraparte de hardware-local a las pilas de agentes hosteadas que están enviando AWS, Google y Anthropic, con optimización para PCs RTX, estaciones de trabajo RTX PRO y la caja personal de IA DGX Spark (128 GB de memoria unificada, 1 petaflop de rendimiento de IA). Cuatro decisiones de diseño distinguen a Hermes del nivel de wrapper: self-evolving skills (el agente escribe y refina su propio conjunto de skills entre runs), sub-agentes contenidos (workers aislados de vida corta con alcance de herramientas enfocado, lo que mantiene las ventanas de contexto pequeñas para correr en modelos locales), confiabilidad curada por Nous (cada skill, herramienta y plug-in que sale está stress-testeado antes de release), y el encuadre de "active orchestration" — Hermes se posiciona como runtime, no como un shim delgado sobre el modelo.

El lado modelo de la historia es Qwen 3.6, la nueva familia open-weight de Alibaba. NVIDIA afirma que el nuevo modelo 35B supera a los modelos de 120B parámetros de la generación anterior mientras corre con aproximadamente 20 GB de memoria (versus 70 GB+ para la clase 120B), y que el nuevo modelo Qwen 3.6 27B denso iguala la precisión del Qwen 3.5 de 397B a un dieciseisavo del tamaño. Ambas afirmaciones son cargantes para la narrativa "puedes correr esto localmente" y requieren verificación de arnés de terceros — la copia de marketing de NVIDIA no revela en qué evaluaciones se apoyan estas comparaciones, y las afirmaciones de compresión capacidad-por-parámetro tienen un historial de suavizarse cuando aterrizan benchmarks independientes. Trata el ratio subyacente (35B con rendimiento de clase 120B) como la hipótesis a probar, no como el resultado verificado, hasta que OpenLLM o LMSYS confirmen.

La lectura ecosistémica acá es la contra-tesis local-stack a todo lo que se está enviando esta semana. AWS WorkSpaces le dio a agentes escritorios virtuales hosteados; el puntero Gemini de Google mantiene a los agentes en la nube y sigue el cursor humano; MDASH de Microsoft es enterprise-only y entregado por SaaS. Hermes es lo opuesto — agnóstico al modelo, agnóstico al proveedor, corre out-of-the-box con LM Studio y Ollama vía llama.cpp, diseñado para un agente local always-on en una estación de trabajo debajo del escritorio de alguien. El interés estratégico de NVIDIA es obvio (vender más unidades RTX PRO y DGX Spark) pero el patrón subyacente es genuinamente independiente del vendor: suficiente capacidad se comprimió en open weights de clase 30B como para que el workflow "un agente corre todo el día en mi hardware, refina sus propios skills, llama a mis herramientas locales" sea ahora mecánicamente posible. El ranking de OpenRouter, si se sostiene, es la primera evidencia real de que un agente open-source sin vendor ganó la batalla de la cuota de atención de desarrolladores contra Claude Code, Codex y los agentes cerrados.

Para builders: clona el repo de GitHub de Hermes, pareálo con Qwen 3.6 27B o 35B vía Ollama o LM Studio, y benchmárkalo en tu workflow real antes de confiar en cualquiera de las dos afirmaciones. Dos cosas a vigilar: (1) si las evals independientes confirman la compresión Qwen 3.6 27B-iguala-397B — esa es la afirmación de ingeniería que sostiene toda la pila; (2) si los skills auto-evolutivos de Hermes realmente acumulan capacidad útil entre runs, o derivan en la manera que los intentos anteriores de agentes auto-mejorantes lo hicieron. El diseño provider/model-agnostic es lo que hace a Hermes interesante más allá del pairing con NVIDIA — si Qwen 3.6 decepciona, cambias a Llama 4 o Mistral Large y la capa de agente se queda. El patrón es la noticia; el bundle de hardware específico es la capa de marketing.