Nous Research 的 Hermes Agent 在不到三個月裡 GitHub 星數已經突破 14 萬,根據 NVIDIA 引用 OpenRouter 的數據,上週已成為全世界使用量第一的 agent。NVIDIA 週三的部落格把 Hermes 定位為 AWS、Google、Anthropic 那些託管 agent stack 的本地硬體對照物,針對 RTX PC、RTX PRO 工作站以及 DGX Spark 個人 AI 主機(128GB 統一記憶體,1 petaflop AI 算力)進行優化。四個設計選擇把 Hermes 與 wrapper 層區分開:self-evolving skills(agent 在多次 run 之間自己寫、自己精修 skill 集合)、contained sub-agents(短命的隔離 worker,聚焦的工具範圍,使得上下文窗口可以保持很小,適合本地模型)、由 Nous 策展的可靠性(出貨前每個 skill/工具/外掛都經過壓力測試)、以及「active orchestration」的定位——Hermes 把自己定位為 runtime,而不是模型之上的薄殼。

模型這一側的故事是 Qwen 3.6,阿里巴巴剛發布的 open-weight 家族。NVIDIA 聲稱新的 35B 模型在大約 20GB 記憶體上跑(對照 120B 類需要 70GB+)卻超過了上一代 120B 參數模型;另一個新的 dense 模型 Qwen 3.6 27B,以 1/16 的體量匹配 Qwen 3.5 397B 的精度。兩個聲明都是「你能在本地跑」這個敘事的承重支柱,都需要第三方 harness 驗證——NVIDIA 的行銷文案沒披露這些對比所依賴的 eval,而「能力/參數比」壓縮類的聲明在獨立 benchmark 落地時往往會軟化。把底下的比例(35B 達到 120B 類效能)當作待測假設,而不是已驗證結論,等 OpenLLM 或 LMSYS 確認。

生態讀法上,這是本週其它所有發貨的 local-stack 反命題。AWS WorkSpaces 給 agent 配託管虛擬桌面;Google Gemini pointer 把 agent 留在雲端、跟著人的游標走;微軟 MDASH 僅面向企業、以 SaaS 方式交付。Hermes 正好相反——模型無關、provider 無關,透過 llama.cpp 與 LM Studio、Ollama 開箱即用,設計上就是某人桌底下一台工作站上 always-on 的本地 agent。NVIDIA 的戰略動機一目了然(賣更多 RTX PRO 與 DGX Spark),但底層模式本身是 vendor-獨立的:足夠多的能力已經壓縮進 30B 級開放權重,讓「agent 一整天在我硬體上跑,自己精修 skill,呼叫我的本地工具」這種工作流在機械層面成為可能。如果 OpenRouter 這個排名能站住腳,這是第一個真實證據,證明一個不依附 vendor 的開源 agent 在開發者心智份額上擊敗了 Claude Code、Codex 和那些封閉 agent。

對 builder:複製 Hermes 的 GitHub repo,透過 Ollama 或 LM Studio 配上 Qwen 3.6 27B 或 35B,在你真實的工作流上 benchmark 一下再決定要不要信那兩個聲明。兩件值得追蹤的事:(1) 是否有獨立 eval 確認 Qwen 3.6 27B = 397B 的壓縮——這是整個 stack 最承重的工程聲明;(2) Hermes 的 self-evolving skills 是否真的能在多次 run 間累積有用能力,還是會像早期 self-improving agent 嘗試那樣漂移。provider/model-agnostic 設計才是讓 Hermes 超出 NVIDIA pairing 的有趣之處——如果 Qwen 3.6 讓你失望,你換成 Llama 4 或 Mistral Large,agent 這層就留著。模式是新聞;具體的硬體捆綁是行銷層。