🚀 AGrail: 终身智能体安全护栏 🔥

Weidi Luo♠, Shenghong Dai♣, Xiaogeng Liu♣, Suman Banerjee♣, Huan Sun♠, Muhao Chen♦, Chaowei Xiao♣

♠The Ohio State University | ♣University of Wisconsin-Madison | ♦University of California, Davis

图1: AGrail框架可防御系统性和任务特定风险，在智能体行动执行前进行预防

🔥 研究亮点: AGrail是首个终身学习的LLM智能体安全框架，具有:

🔍 研究背景

随着大型语言模型(LLM)作为自主智能体的广泛应用，其面临的安全风险日益凸显:

96.3%

任务风险检测准确率

96%

良性行为保留率

提示注入攻击成功率

AGrail通过三个关键技术实现智能体安全防护:

图2: AGrail工作流程 - 通过安全检查防止文件覆盖风险

在多个基准测试中表现优异:

下载完整论文访问项目主页