Moonshot 发布 Kimi K2.6,强调长时程编码、工具调用和多 Agent 协作能力,并给出 12 小时连续执行、4000+ 次工具调用的案例。
Moonshot AI 发布了新一代开源模型 Kimi K2.6,重点强化的是“长程编程”能力,而不是单轮问答。官方展示的案例里,模型可连续运行 12 小时以上,执行 4000 多次工具调用,在多轮迭代后把本地推理吞吐从约 15 tokens/s 提升到约 193 tokens/s;另一个案例中,它还对一套已有 8 年历史的金融撮合引擎进行了大规模重构和性能优化。除了编码,K2.6 还被定位为适合 Agent 工作流和多智能体协作的基础模型。
这件事重要在于,开源阵营的竞争正从“跑分”转向“能不能持续干活”。过去很多模型单题表现不错,但一到真实工程环境里就容易在上下文、工具调用、长链路任务上掉线。Kimi K2.6 试图证明,开源模型也能承担接近生产级的复杂工程任务。
对开发者和工具平台来说,影响很直接:如果这类模型在稳定性和成本之间找到平衡,AI 编程产品、自动化运维、前端生成和 Agent 平台都会有更多开源替代方案。对闭源模型厂商来说,竞争压力也会进一步加大,尤其是在“长会话 + 工具链”这个新战场上。
来源:Kimi 官方博客 · Hacker News 讨论
订阅工具岛 Newsletter
每周五发送最新的 AI 工具榜单、内容模板与增长实验,帮助你快速验证想法。
继续探索
继续你的阅读之旅
两周从 300 万到 400 万:Codex 用户暴涨背后,OpenAI 正把“写代码”扩成“做工作”
Sam Altman 透露 Codex 活跃用户已突破 400 万,而 OpenAI 官方文章显示,两周前这一数字还在 300 万级别。增长背后不只是程序员更爱用 AI 写代码,而是 Codex 正从代码助手变成企业工作流入口:能看浏览器、调工具、接插件、记住上下文,还开始向工程之外的知识工作渗透。
广告开始试探 ChatGPT:媒体采购商已向品牌兜售早期投放位
Adweek 披露,广告技术平台 StackAdapt 正向广告主推介 ChatGPT 内广告测试计划,称可按“提示词相关性”匹配广告场景。