SkyPilot 证明“先研究再写代码”的代理更强，3 小时把 llama.cpp 提速 15%

SkyPilot 团队展示一种“Research-Driven Agents”流程：让编码代理先读论文、研究竞品和分支实现，再并行跑实验优化代码，最终在约 3 小时、4 台云主机下，把 llama.cpp 的 flash attention 文本生成在 x86 上提升约 15%、ARM 上提升约 5%。

SkyPilot 发布了一篇很有代表性的代理工程案例：让编码代理在真正动代码前，先做一轮外部研究，包括阅读论文、查竞品实现、分析其他分支项目，然后再自动提出假设、改代码、跑基准和回归测试。团队把这套流程接到 llama.cpp 的 CPU 推理优化任务上，在约 3 小时、4 台云主机、总成本约 29 美元的条件下，产出 30 多轮实验，最终有 5 项优化被采纳，使 flash attention 文本生成速度在 x86 上提高约 15%，ARM 上提高约 5%。

这件事重要，不只是因为速度提升本身，而是它说明代理的上限不再只是“会改代码”，而是“会像资深工程师一样先做研究”。以往很多编码代理只盯着当前代码上下文，容易提出局部、浅层的优化；而这次结果表明，只要给代理增加外部知识检索和对照研究，它能发现代码里看不出的机会，比如跨后端实现、算子融合和架构级瓶颈。

对工具行业的影响很直接：未来的强代理，很可能都会内建研究阶段、实验编排和评测闭环。谁能把“检索—假设—实验—验证”做成产品，谁就更接近真正的自动化研发助手。

来源：SkyPilot Blog · Hacker News

Subscribe to ToolCenter Newsletter

Get the latest AI tool rankings, content templates, and growth experiments delivered every Friday.

Next in Deep Dives

Continue your journey

View All

Video & Animation

TapNow AI Review 2026: Is the Agentic Creative Canvas Worth It?

TapNow AI is a multi-model creative canvas, not a single-purpose video generator — it orchestrates Sora, Pika, Kling-style models inside one workspace and adds a remix community called TapTV.

Developer Tools

Best Free AI Coding Assistant in 2026: 8 Tools That Cost $0

Eight AI coding tools offer free tiers worth using in 2026 — but only five are usable for full-time development without hitting a paywall.