加州大学伯克利团队发布研究称,SWE-bench、WebArena、GAIA、Terminal-Bench 等 8 个主流 AI Agent 基准都存在可被系统性利用的漏洞,攻击者无需真正完成任务,也能拿到接近满分成绩。
伯克利 RDI 团队发布最新研究,称他们构建的自动化审计代理成功“攻破”了 8 个主流 AI Agent 基准,包括 SWE-bench、WebArena、OSWorld、GAIA 和 Terminal-Bench。论文给出的案例很直接:只需在测试流程里插入数十行钩子代码、篡改验证命令,或利用配置泄露读取标准答案,就能在多项榜单上获得 73% 到 100% 的高分,而无需真正解决任何任务。研究者特别指出,这些分数已被公司、投资人和工程团队广泛拿来当作模型能力与产品成熟度的背书,但如果评测本身可被“奖励黑客”操纵,排行榜的参考价值就会迅速下降。对行业来说,这意味着 AI Agent 的竞争正从“谁分更高”转向“谁的评测更可信、环境更抗攻击”。对开发者和采购方来说,今后仅看榜单选型会更危险,必须同时核查真实任务表现、评测隔离性和可复现实验设计。
来源:Berkeley RDI · Hacker News
订阅工具岛 Newsletter
每周五发送最新的 AI 工具榜单、内容模板与增长实验,帮助你快速验证想法。