6月27日週六02:33Research

兩千人嘗試入侵AI助手，六千次攻擊皆失敗

Fernando Irarrázaval 在 hackmyclaw.com 上發起挑戰，邀請兩千多人試圖入侵他的OpenClaw測試實例。攻擊者透過發送電子郵件企圖誘騙模型洩露機密，但經過六千次嘗試（花費約500美元代幣，並因大量入站郵件導致Google帳戶被暫停），無人成功。底層模型為Opus 4.6，並設有反提示注入規則，禁止根據郵件內容洩露secrets.env或憑證、修改自身文件、執行命令或代碼、以及將數據外洩。這印證了實驗室在訓練前沿模型抵抗注入攻擊上的努力確有成效。然而，作者仍不建議在生產系統中部署此類防護，因為六千次失敗並不保證更高明的手法無法得逞。

Decision Brief

變化Fernando Irarrázaval 舉辦挑戰賽，測試是否能透過電子郵件誘騙OpenClaw測試實例洩露秘密，結果六千次嘗試均未成功。

為什麼重要此案例證明前沿模型在對抗提示注入攻擊上已有顯著進步，但AI builder仍需警惕生產環境中的殘餘風險。

誰該關注所有 AI builder

受影響技術棧未識別出特定技術棧

建議動作觀察

來源可信度中 · 可靠媒體或一手報導

摘要依據：官方/RSS 來源如果不是「已讀全文」，這條詳摘只基於公開可取得內容，不會假裝讀過受限原文。

查看原文

來源

Simon Willison：Blog
Hands-on notes on LLM tools, local models, and practical AI engineering.
Simon Willison：Blog