🚀 AGrail: 终身智能体安全护栏 🔥
Weidi Luo♠, Shenghong Dai♣, Xiaogeng Liu♣, Suman Banerjee♣, Huan Sun♠, Muhao Chen♦, Chaowei Xiao♣
♠The Ohio State University | ♣University of Wisconsin-Madison | ♦University of California, Davis
🔥 研究亮点: AGrail是首个终身学习的LLM智能体安全框架,具有:
- 自适应安全检查生成
- 高效安全检查优化
- 工具兼容性与灵活性
🔍 研究背景
随着大型语言模型(LLM)作为自主智能体的广泛应用,其面临的安全风险日益凸显:
- 任务特定风险: 由管理员根据任务需求识别
- 系统性风险: 来自智能体设计或交互中的漏洞
💡 技术突破
AGrail通过三个关键技术实现智能体安全防护:
- 自适应安全检查生成: 动态生成适用于不同下游任务的安全检查项
- 安全检查优化: 通过两个协作LLM迭代优化安全检查
- 工具兼容性: 可选择性调用定制辅助工具增强安全检查
🏆 实验结果
在多个基准测试中表现优异:
- Mind2Web-SC/EICU-AC: 96.3%平均准确率
- Safe-OS: 仅阻断4.4%良性行为
- AdvWeb/EIA: 攻击成功率降至0-28%