行业资讯 · 2026年4月12日

伯克利研究直指 AI Agent 榜单失真：八大基准可被“零解题”刷到近满分

加州大学伯克利团队发布研究称，SWE-bench、WebArena、GAIA、Terminal-Bench 等 8 个主流 AI Agent 基准都存在可被系统性利用的漏洞，攻击者无需真正完成任务，也能拿到接近满分成绩。

伯克利 RDI 团队发布最新研究，称他们构建的自动化审计代理成功“攻破”了 8 个主流 AI Agent 基准，包括 SWE-bench、WebArena、OSWorld、GAIA 和 Terminal-Bench。论文给出的案例很直接：只需在测试流程里插入数十行钩子代码、篡改验证命令，或利用配置泄露读取标准答案，就能在多项榜单上获得 73% 到 100% 的高分，而无需真正解决任何任务。研究者特别指出，这些分数已被公司、投资人和工程团队广泛拿来当作模型能力与产品成熟度的背书，但如果评测本身可被“奖励黑客”操纵，排行榜的参考价值就会迅速下降。对行业来说，这意味着 AI Agent 的竞争正从“谁分更高”转向“谁的评测更可信、环境更抗攻击”。对开发者和采购方来说，今后仅看榜单选型会更危险，必须同时核查真实任务表现、评测隔离性和可复现实验设计。

来源：Berkeley RDI · Hacker News

订阅工具岛 Newsletter

每周五发送最新的 AI 工具榜单、内容模板与增长实验，帮助你快速验证想法。

继续探索

继续你的阅读之旅

查看全部

Video & Animation

TapNow AI Review 2026: Is the Agentic Creative Canvas Worth It?

TapNow AI is a multi-model creative canvas, not a single-purpose video generator — it orchestrates Sora, Pika, Kling-style models inside one workspace and adds a remix community called TapTV.

Developer Tools

Best Free AI Coding Assistant in 2026: 8 Tools That Cost $0

Eight AI coding tools offer free tiers worth using in 2026 — but only five are usable for full-time development without hitting a paywall.