O Hermes Agent da Nous Research passou de 140 000 estrelas no GitHub em menos de três meses e é, segundo a NVIDIA citando o OpenRouter, o agente mais usado do mundo na semana passada. O post da NVIDIA na quarta-feira posiciona o Hermes como a contraparte de hardware-local das pilhas de agentes hospedadas pela AWS, Google e Anthropic, com otimização para PCs RTX, workstations RTX PRO e a caixa pessoal de IA DGX Spark (128 GB de memória unificada, 1 petaflop de desempenho de IA). Quatro decisões de design distinguem o Hermes do nível wrapper: self-evolving skills (o agente escreve e refina seu próprio conjunto de skills entre runs), sub-agentes contidos (workers isolados de vida curta com escopo focado de ferramentas, o que mantém as janelas de contexto pequenas o suficiente para rodar em modelos locais), confiabilidade curada pela Nous (todo skill, ferramenta e plug-in lançado é estresse-testado antes do release), e o enquadramento "active orchestration" — o Hermes se posiciona como runtime, não como um shim fino em cima do modelo.

O lado modelo da história é o Qwen 3.6, a nova família open-weight da Alibaba. A NVIDIA afirma que o novo modelo 35B supera os modelos de 120B parâmetros da geração anterior enquanto roda com aproximadamente 20 GB de memória (versus 70 GB+ para a classe 120B), e que o novo Qwen 3.6 27B denso iguala a precisão do Qwen 3.5 397B a um dezesseis avos do tamanho. Ambas as afirmações são carregadas para a narrativa "você pode rodar isso localmente" e pedem verificação de harness de terceiros — a cópia de marketing da NVIDIA não revela em quais evals essas comparações se apoiam, e afirmações de compressão capacidade-por-parâmetro têm histórico de amolecer quando benchmarks independentes pousam. Trate o ratio subjacente (35B com desempenho da classe 120B) como a hipótese a testar, não o resultado verificado, até que o OpenLLM ou o LMSYS confirmem.

A leitura ecossistêmica aqui é a contra-tese local-stack a tudo que está sendo enviado essa semana. AWS WorkSpaces deu a agentes desktops virtuais hospedados; o ponteiro Gemini do Google mantém os agentes na cloud e segue o cursor humano; o MDASH da Microsoft é enterprise-only e entregue como SaaS. O Hermes é o oposto — agnóstico ao modelo, agnóstico ao provedor, roda out-of-box com o LM Studio e o Ollama via llama.cpp, projetado para um agente local always-on numa workstation debaixo da mesa de alguém. O interesse estratégico da NVIDIA é óbvio (vender mais unidades RTX PRO e DGX Spark) mas o padrão subjacente é genuinamente independente de vendor: capacidade suficiente foi comprimida em open weights de classe 30B para que o workflow "um agente roda o dia todo no meu hardware, refina seus próprios skills, chama minhas ferramentas locais" seja agora mecanicamente possível. O ranking do OpenRouter, se segurar, é a primeira evidência real de que um agente open-source sem vendor venceu a batalha de share-of-mind dos devs contra Claude Code, Codex e os agentes fechados.

Para builders: clone o repo do GitHub do Hermes, emparelhe com Qwen 3.6 27B ou 35B via Ollama ou LM Studio, e faça benchmark no seu workflow real antes de confiar em qualquer das duas afirmações. Duas coisas para acompanhar: (1) se evals independentes confirmam a compressão Qwen 3.6 27B-iguala-397B — essa é a afirmação de engenharia que sustenta toda a pilha; (2) se os skills auto-evolutivos do Hermes realmente acumulam capacidade útil entre runs, ou derivam do jeito que tentativas anteriores de agentes auto-melhorantes fizeram. O design provider/model-agnostic é o que torna o Hermes interessante além do pairing com a NVIDIA — se o Qwen 3.6 decepcionar, você troca por Llama 4 ou Mistral Large e a camada de agente fica. O padrão é a notícia; o bundle de hardware específico é a camada de marketing.