[AGENT-SECURITY] 掃完所有的AI Agent Security 論文後,可以看出什麼?

對於AI Agent Security 的最小全局

Posted by 李杰諹 on Tuesday, April 28, 2026

背景

之前在 Anetac 是只對 Agent 在 MCP 上的權限資安做偵測,現在想要全面看一下 AI Agent Security 領域的全貌。

我寫了一個 pipeline 蒐集論文:arXiv 用 31 組布林關鍵字(涵蓋 prompt injection、tool use、multi-agent、MCP、RAG/memory、guardrail、red teaming 等子題)按提交日期掃廣度、Semantic Scholar 用 20 組自然語言查詢按 relevance 補深度,雙線抓取後以 arXiv ID(去版本號)去重,寫進 Zotero group library,目前累積 ~3,767 篇預印本(時間範圍 2025-04 到 2026-04)。再用 agent 批次讀所有 abstract、分組摘要、人工歸類後,大致可以看出,AI Agent 安全已經變成「五層 stack」:

威脅類型 代表論文 為什麼這層獨立
5: 生態系統與治理 供應鏈攻擊 / 協議漏洞 / 監管缺失 Tool Squatting (21), ETDI / Rug Pull (11), MCP Safety Audit (56) 攻擊者目標是 agent ecosystem,不是個別 model
4: 多代理協作 級聯故障 / 信任傳播 / 共謀 Open Challenges in Multi-Agent Security (50) 多 agent 互動產生獨特威脅
3: 工具與環境互動 工具投毒 / 權限提升 / 資料洩露 Prompt Injection to Tool Selection (49), MCPTox (22), WASP (69) Agent 觸及外部世界的攻擊面
2: 模型行為與對齊 提示注入 / 越獄 / agent 對齊失敗 DataSentinel (72), X-Teaming (60), PromptArmor (58), Agentic Misalignment (78), SHADE-Arena (24) 外部攻擊 + 內部對齊失誤
1: 資料與訓練 資料投毒 / 後門 / 微調安全崩潰 Deep Ignorance (31), Fine-Tuning Lowers Safety (12) 模型出生就帶著的風險

1. 資料與訓練

風險發生在模型「出生」之前 —— pre-train 階段被有毒資料污染、被植入後門,或在 post-train 微調時破壞掉原本訓練好的對齊行為。這層的特殊之處是:問題一旦寫進權重,後續任何層的 runtime defense 都無法回溯修復,只能事後偵測。

代表論文:

  • Fine-Tuning Lowers Safety and Disrupts Evaluation Consistency — 在「即使良性微調也會破壞模型對齊」這個既有發現之上,這篇進一步指出更糟的事:safety benchmark 本身的結果在不同 fine-tune setup 下會出現高變異,連看似無關的實驗細節改動都會影響評估結論 —— 也就是說,連用來衡量 fine-tuning 對 safety 影響的工具本身都不穩定。
  • Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs — 純防禦取向:在 pre-train 階段過濾 dual-use 主題(如 biothreat 知識),打造出能撐過 10,000 步、3 億 tokens 對抗式 fine-tune 的 tamper-resistant 開源模型,效果比現有 post-training 防禦高一個數量級,且不影響其他能力。

2. 模型行為與對齊

這層其實包含兩種風險:外部攻擊(廣義 prompt injection)與內部失誤(agent 自主執行時的對齊失敗)。

外部攻擊 就是 prompt injection 的範疇:直接注入(攻擊者就是使用者)、間接注入(惡意指令藏在 RAG 文件、網頁、工具回傳值裡)、以及越獄。目的都是讓模型違反 system prompt 的約束。這層有一個蠻有趣的點:模型 instruction following 能力越強,攻擊面可能反而越大。

內部失誤 則是 agent 自主執行時,即使沒有外部攻擊者,模型自己就會為了達成目標、避免被取代,而表現出策略性欺騙、規避監控、洩密等行為。這是 agent 自主化後才出現的新威脅,傳統單 turn LLM safety 評估無法捕捉。

代表論文:

3. 工具與環境互動

這是我的前公司 Anetac 主攻的範疇 —— Agent 透過 MCP / function calling / browser control 觸及外部世界(讀檔、呼叫 API、寫資料庫、操作瀏覽器)所暴露的攻擊面。常見的攻擊型態包括:MCP server 過度授權、tool description 被惡意改寫導致 agent 選錯工具、工具回傳值夾帶 indirect injection 把資料偷渡出去。

代表論文:

4. 多代理協作

當多個 agent 互相呼叫(orchestrator → worker、A 把輸出餵給 B),會出現單一 agent 系統沒有的威脅:信任會沿著呼叫鏈來傳播、一個 agent 被劫持的話會級聯影響整條鏈、agent 之間還可能「共謀」做出單一 agent 不會單獨做的決策。

代表論文:

5. 生態系統與治理

最上層攻擊的目標不再是單個模型或 agent,而是整個 agent ecosystem:MCP marketplace 上的 tool squatting、工具發布者累積信任後推送惡意更新(rug pull)、協議層本身的設計缺陷、以及監管真空下的責任歸屬問題等等。

代表論文:

小結

從在 Anetac 時只在 L3 一層上看 MCP 權限,到現在攤開全領域論文看見整個 5 層 stack —— 這次整理讓我了解到:agent security 沒辦法用一個全面的方式或套件防禦所有風險,每一層的攻擊面、攻擊者、防禦工具都不一樣,只能一個一個對應處理。

ChangeLog

  • 20260428–初稿