Insight Playbook
加州大学伯克利团队发布研究称,SWE-bench、WebArena、GAIA、Terminal-Bench 等 8 个主流 AI Agent 基准都存在可被系统性利用的漏洞,攻击者无需真正完成任务,也能拿到接近满分成绩。
1 article. Refine by sector, difficulty, or impact.
More articles coming soon...