Microsoft Harrier 模型捨棄 BERT，轉向純解碼器嵌入架構

Microsoft 發佈了 Harrier-OSS-v1，三個開源多語言嵌入模型，打破了多年來 BERT 主導的嵌入架構。該系列涵蓋 270M、600M 和 27B 參數，在 Multilingual MTEB v2 基準測試中均達到最先進結果。與傳統雙向編碼器不同，這些模型使用純解碼器架構配合最後token池化——與 ChatGPT 和其他現代 LLMs 相同的因果注意力模式。

這種架構轉變的意義超出基準數字所暗示的。大多數嵌入模型最多處理 512-1024 個token，迫使開發者進行激進的文件分塊，破壞語義連貫性。Harrier 的 32k 上下文視窗改變了 RAG 系統的遊戲規則——你可以嵌入整篇研究論文、長程式碼檔案或全面文件，而不會在分塊邊界丟失語義。轉向純解碼器也使這些模型能夠受益於驅動 LLM 改進的相同縮放定律和訓練技術。

Microsoft 的公告沒有說明為什麼選擇這種特定的池化策略，而不是均值池化或注意力加權方法等替代方案。指令調優設計也增加了操作複雜性——查詢需要任務特定前綴而文件不需要，創建了不對稱編碼模式，可能會困擾習慣對稱嵌入工作流程的開發者。

對於建構者而言，這次發佈預示了嵌入技術的發展方向：更長的上下文、LLM 風格架構和更細緻的指令遵循。270M 模型為大多數使用案例提供了生產就緒選項，而 27B 版本針對嵌入品質優先於推理速度的應用。記住指令格式要求——跳過這些前綴會嚴重影響你的檢索效能。

Microsoft Harrier 模型捨棄 BERT，轉向純解碼器嵌入架構

更多新聞