紅隊測試：定義與含義 — AI 維基

刻意嘗試讓AI模型失敗、行為不當或產生有害輸出的實踐方式。紅隊會探測潛在漏洞：越獄、偏見、錯誤資訊生成、隱私洩漏等。此名稱源自軍事推演中「紅隊」扮演敵對方的傳統。

為什麼重要

你無法解決你不知道的問題。紅隊測試（red teaming）是供應商發現其模型會在你要求它「寫一個關於鎖匠的故事」時，解釋如何開鎖的方法。這是在每次重大模型發布前進行的關鍵安全工作。

深度解析

「紅隊測試」這個詞源自冷戰時期的軍事演習，當時由指定的敵對團隊（紅隊）攻擊防禦團隊（藍隊）的計畫。在網路安全領域，這演變成聘請道德駭客在惡意攻擊者之前找出漏洞的實踐方式。AI紅隊測試應用相同的哲學：假設模型存在弱點，然後系統性地找出這些弱點。與傳統滲透測試的關鍵差異在於，AI模型的失敗方式是模糊且機率性的——並沒有單一的漏洞可以「完全控制」語言模型，而是存在一整片的提示詞與情境，讓模型產生意外或有害的行為。

紅隊測試的內容

現代的AI紅隊測試通常涵蓋幾個類別的失敗風險。安全性測試會探測有害內容的生成——能否讓模型產生武器製造說明、詳細的自傷內容或兒童濫用資料？偏見與公平性測試會檢查模型是否對不同族群有差異對待或強化刻板印象。事實性測試則會查找模型在高風險領域（如醫學與法律）中產生的自信幻覺。隱私性測試會檢查模型是否會重複訓練資料中的個人資料（研究人員已從GPT-3中提取出完整的訓練資料，包括電話號碼與電子郵件地址）。能力評估則會檢查模型是否能協助真正危險的任務，例如生物武器設計或網路攻擊——這些評估決定了模型是否可以安全部署。

專業化發展

這項實踐已迅速專業化。Anthropic、OpenAI、Google DeepMind 和 Meta 在重大發布前都會進行內部紅隊測試，並逐漸引入外部專門人員。Anthropic 在 Claude 發布前與生物安全和網路安全領域的專家合作進行評估。OpenAI 為 GPT-4 舉辦了規模龐大的外部紅隊測試，參與的專家超過 50 位。HackerOne 和 Scale AI 等新創公司已建立紅隊測試即服務平台。也有一個不斷成長的獨立 AI 紅隊測試社群——DEF CON 2023 年的生成式 AI 紅隊測試活動吸引了數千人同時測試多家供應商的模型，並發現了企業後續修補的真實漏洞。

機器測試機器

自動化紅隊測試日益成為人工測試的重要補充。其概念是使用一個 AI 模型生成對抗性提示詞，以測試另一個模型的防禦能力。技術包括基於梯度的攻擊（Greedy Coordinate Gradient，或 GCG，用來尋找無意義但有效的對抗後綴）、LLM 作為攻擊者的方法（紅隊模型根據目標模型的回應迭代優化越獄提示詞），以及模糊測試（系統性地變異已知成功的攻擊方式以發現新變體）。Anthropic 等實驗室使用這些自動化方法進行大規模測試——一個人工紅隊測試人員可能在一節課中嘗試數百次攻擊，而自動化系統則能嘗試數百萬次。但需要注意的是，自動化方法傾向於發現「奇怪」的失敗案例（對無意義符號的回應），而人類則更擅長發現社會現實的攻擊向量（實際用戶可能會嘗試的類型）。

為何多元團隊勝出

任何進行紅隊測試的人都需要注意一個實務問題：測試結果高度依賴於如何設定測試情境。如果你只測試預期的失敗類型，就只會發現那些問題。最有價值的紅隊測試往往來自於與 AI 無關的專業領域人員——社會工作者可能發現出操縱模式，而這可能是安全研究人員從未考慮測試的；化學家則能分辨哪些合成說明確實危險，哪些只是教科書知識。這就是為何多元紅隊總能找到更多且不同的漏洞，而同質化團隊則不然。這也是為何紅隊測試永遠不會「完成」——每一個新用例、每一個新整合、每一次模型更新，都可能引入先前測試未涵蓋的失敗模式。

紅隊測試