伯克利 RDI 的一篇文章称,研究者在不真正完成任务的情况下几乎刷满多个 AI Agent 基准分数,引发社区对评测可信度的集中讨论。
Hacker News 今日热议的一篇文章指出,部分主流 AI Agent 基准测试可能存在被“策略性取巧”轻松攻破的问题。根据讨论摘要,研究者声称自己在没有真正解决任务的前提下,依然在多个知名 Agent benchmark 上拿到了接近满分成绩。文章提到,这些“漏洞”从非常简单的输入技巧,到更复杂的环境层包装利用都有,说明当前不少评测框架更像是在测试系统是否会被钻空子,而不一定能真实反映代理能力。
这件事之所以重要,是因为 AI Agent 赛道如今高度依赖 benchmark 排名来做产品宣传、融资叙事和技术路线判断。一旦评测本身可被系统性利用,那么高分不再等于高能力,整个市场对“谁最强”的认知就可能被误导。尤其是在自动编程、办公代理、浏览器代理等竞争激烈的方向,评测榜单几乎已成为核心营销资产。
对行业的直接影响是,未来 Agent 评估会更强调真实任务完成率、抗作弊设计和端到端可验证结果,而不是只看静态分数。对用户和投资人来说,这也是一个提醒:看 AI 产品时不能只看跑分,还要看是否真的能稳定完成工作。短期内,这类争议也可能倒逼整个 Agent 生态加速建立更严谨的公开评测标准。
来源:Hacker News
Subscribe to ToolCenter Newsletter
Get the latest AI tool rankings, content templates, and growth experiments delivered every Friday.
Next in Deep Dives
Continue your journey
AI 安全进入“系统战”:小模型也能复现 Mythos 级漏洞分析
AISLE 最新文章称,他们用多款小型开源模型复现了 Anthropic Mythos 展示的多类漏洞分析结果,说明 AI 网络安全能力并非线性依赖超大模型,真正护城河更可能在系统编排和安全工作流。
伯克利研究直指 AI Agent 榜单失真:八大基准可被“零解题”刷到近满分
加州大学伯克利团队发布研究称,SWE-bench、WebArena、GAIA、Terminal-Bench 等 8 个主流 AI Agent 基准都存在可被系统性利用的漏洞,攻击者无需真正完成任务,也能拿到接近满分成绩。