我们首次系统性地揭示了LLM Agent内存模块中的隐私风险,提出了一种黑盒环境下的内存提取攻击(MEXTRA)。实验表明,通过精心设计的攻击提示,攻击者可以成功提取Agent内存中存储的敏感用户查询信息。
在医疗和电商两个典型场景的Agent测试中,仅用30个攻击提示就能提取多达50条隐私用户查询,攻击效率超过40%
相似度评分函数、检索深度和内存大小是影响内存泄漏的关键因素,使用编辑距离的Agent更易受攻击
LLM Agent设计亟需有效的内存保护机制,特别是在医疗等隐私敏感领域应用时
提出包含定位器(locator)和对齐器(aligner)的攻击提示设计,并开发了自动化生成方法