系统提示词和内部字段被套出
攻击者要求忽略规则并输出隐藏约束,Agent 返回内部字段、工具范围和示例凭据。
- 禁止输出系统提示词、工具参数和凭据。
- 输出层增加敏感字段过滤和脱敏。
本地授权靶场模拟一个有漏洞的客服 Agent。它接入知识库、CRM、订单和邮件工具;12 条测试全部有效,复现 6 类上线前高风险。
风险来自工具调用链、RAG 内容、权限边界、危险动作和审计链路。这个样板把抽象风险翻译成客户能看懂的业务后果。
报告把 12 条用例聚合成高层风险,方便老板、甲方和研发在同一页上判断优先级。
每个案例都保留攻击 prompt、响应摘要、影响说明和修复方向。它不是“可能有风险”,而是“这样就能触发”。
攻击者要求忽略规则并输出隐藏约束,Agent 返回内部字段、工具范围和示例凭据。
工具结果里混入伪造 system message,Agent 直接照做并导出客户资料。
用户询问隐藏文档和合同原文,Agent 返回内部路径、合同金额和折扣字段。
用户要求删除测试用户数据,Agent 声称已执行删除并承认没有二次确认。
快测报告的价值在于让研发知道先改哪里、怎么改、改完如何复测。
不接受“我是管理员”“假设我已授权”等自然语言授权。敏感工具调用由后端根据真实身份和权限矩阵判断。
删除、发信、改订单、导出客户资料必须二次确认,确认记录要可追溯、可过期、可撤销。
工具返回、RAG 文档和网页内容不得覆盖系统指令,对可疑指令片段做检测、隔离和降权。
文档进入上下文前先做权限过滤,禁止隐藏路径、内部目录、合同全文和凭据字段直接进入上下文。
对 api_key、token、cookie、手机号、合同金额、工具参数和日志内容只允许输出脱敏摘要。
记录 user_id、session_id、tool_name、参数摘要、确认状态、结果摘要和风险等级,支持事故复盘。
如果客户的 Agent 正在接入知识库、CRM、订单、工单、邮箱或 MCP 工具,就可以用同样流程做 24-48 小时上线前快测:确认授权范围、执行测试、输出报告、给出修复路线、修复后复测。