🚀 AGrail: 终身智能体安全护栏 🔥

Weidi Luo♠, Shenghong Dai♣, Xiaogeng Liu♣, Suman Banerjee♣, Huan Sun♠, Muhao Chen♦, Chaowei Xiao♣
♠The Ohio State University | ♣University of Wisconsin-Madison | ♦University of California, Davis
AGrail框架示意图
图1: AGrail框架可防御系统性和任务特定风险,在智能体行动执行前进行预防

🔥 研究亮点: AGrail是首个终身学习的LLM智能体安全框架,具有:

  • 自适应安全检查生成
  • 高效安全检查优化
  • 工具兼容性与灵活性

🔍 研究背景

随着大型语言模型(LLM)作为自主智能体的广泛应用,其面临的安全风险日益凸显:

96.3%
任务风险检测准确率
96%
良性行为保留率
0%
提示注入攻击成功率

💡 技术突破

AGrail通过三个关键技术实现智能体安全防护:

  1. 自适应安全检查生成: 动态生成适用于不同下游任务的安全检查项
  2. 安全检查优化: 通过两个协作LLM迭代优化安全检查
  3. 工具兼容性: 可选择性调用定制辅助工具增强安全检查
AGrail工作流程
图2: AGrail工作流程 - 通过安全检查防止文件覆盖风险

🏆 实验结果

在多个基准测试中表现优异:

下载完整论文 访问项目主页