SkyPilot 团队展示一种“Research-Driven Agents”流程:让编码代理先读论文、研究竞品和分支实现,再并行跑实验优化代码,最终在约 3 小时、4 台云主机下,把 llama.cpp 的 flash attention 文本生成在 x86 上提升约 15%、ARM 上提升约 5%。
SkyPilot 发布了一篇很有代表性的代理工程案例:让编码代理在真正动代码前,先做一轮外部研究,包括阅读论文、查竞品实现、分析其他分支项目,然后再自动提出假设、改代码、跑基准和回归测试。团队把这套流程接到 llama.cpp 的 CPU 推理优化任务上,在约 3 小时、4 台云主机、总成本约 29 美元的条件下,产出 30 多轮实验,最终有 5 项优化被采纳,使 flash attention 文本生成速度在 x86 上提高约 15%,ARM 上提高约 5%。
这件事重要,不只是因为速度提升本身,而是它说明代理的上限不再只是“会改代码”,而是“会像资深工程师一样先做研究”。以往很多编码代理只盯着当前代码上下文,容易提出局部、浅层的优化;而这次结果表明,只要给代理增加外部知识检索和对照研究,它能发现代码里看不出的机会,比如跨后端实现、算子融合和架构级瓶颈。
对工具行业的影响很直接:未来的强代理,很可能都会内建研究阶段、实验编排和评测闭环。谁能把“检索—假设—实验—验证”做成产品,谁就更接近真正的自动化研发助手。
来源:SkyPilot Blog · Hacker News
订阅工具岛 Newsletter
每周五发送最新的 AI 工具榜单、内容模板与增长实验,帮助你快速验证想法。