Nous Research 的 Hermes Agent 在不到三个月里 GitHub 星数已经突破 14 万,根据 NVIDIA 引用 OpenRouter 的数据,上周已成为全世界使用量第一的 agent。NVIDIA 周三的博客把 Hermes 定位为 AWS、Google、Anthropic 那些托管 agent stack 的本地硬件对照物,针对 RTX PC、RTX PRO 工作站以及 DGX Spark 个人 AI 主机(128GB 统一内存,1 petaflop AI 算力)进行优化。四个设计选择把 Hermes 与 wrapper 层区分开:self-evolving skills(agent 在多次 run 之间自己写、自己精修 skill 集合)、contained sub-agents(短命的隔离 worker,聚焦的工具范围,使得上下文窗口可以保持很小,适合本地模型)、由 Nous 策展的可靠性(出货前每个 skill/工具/插件都经过压力测试)、以及 "active orchestration" 的定位——Hermes 把自己定位为 runtime,而不是模型之上的薄壳。
模型这一侧的故事是 Qwen 3.6,阿里巴巴刚发布的 open-weight 家族。NVIDIA 声称新的 35B 模型在大约 20GB 内存上跑(对照 120B 类需要 70GB+)却超过了上一代 120B 参数模型;另一个新的 dense 模型 Qwen 3.6 27B,以 1/16 的体量匹配 Qwen 3.5 397B 的精度。两个声明都是"你能在本地跑"这个叙事的承重支柱,都需要第三方 harness 验证——NVIDIA 的营销文案没披露这些对比所依赖的 eval,而"能力/参数比"压缩类的声明在独立 benchmark 落地时往往会软化。把底下的比例(35B 达到 120B 类性能)当作待测假设,而不是已验证结论,等 OpenLLM 或 LMSYS 确认。
生态读法上,这是本周其它所有发货的 local-stack 反命题。AWS WorkSpaces 给 agent 配托管虚拟桌面;Google Gemini pointer 把 agent 留在云端、跟着人的光标走;微软 MDASH 仅面向企业、以 SaaS 方式交付。Hermes 正好相反——模型无关、provider 无关,通过 llama.cpp 与 LM Studio、Ollama 开箱即用,设计上就是某人桌底下一台工作站上 always-on 的本地 agent。NVIDIA 的战略动机一目了然(卖更多 RTX PRO 与 DGX Spark),但底层模式本身是 vendor-独立的:足够多的能力已经压缩进 30B 级开放权重,让"agent 一整天在我硬件上跑,自己精修 skill,调用我的本地工具"这种工作流在机械层面成为可能。如果 OpenRouter 这个排名能站住脚,这是第一个真实证据,证明一个不依附 vendor 的开源 agent 在开发者心智份额上击败了 Claude Code、Codex 和那些封闭 agent。
对 builder:克隆 Hermes 的 GitHub repo,通过 Ollama 或 LM Studio 配上 Qwen 3.6 27B 或 35B,在你真实的工作流上 benchmark 一下再决定要不要信那两个声明。两件值得跟踪的事:(1) 是否有独立 eval 确认 Qwen 3.6 27B = 397B 的压缩——这是整个 stack 最承重的工程声明;(2) Hermes 的 self-evolving skills 是否真的能在多次 run 间累积有用能力,还是会像早期 self-improving agent 尝试那样漂移。provider/model-agnostic 设计才是让 Hermes 超出 NVIDIA pairing 的有趣之处——如果 Qwen 3.6 让你失望,你换成 Llama 4 或 Mistral Large,agent 这层就留着。模式是新闻;具体的硬件捆绑是营销层。
