← 返回资讯
产品发布 @swyx 2026-06-09

Mythos 上线:FrontierCode 成为编程基准测试前沿

Mythos 和 Fable 的后训练将测试时计算用于解决超长任务(数十人时、数百美元每任务),首次实现有意义的 effort scaling,已在 Cognition Devin 上线,仅 1.4…

查看原文
TL;DR · 产品解读

Mythos 作为 AI 编程模型正式上线,FrontierCode 成为首个针对「超长任务」的编程基准,引入 effort scaling 概念解决数十人时级别的复杂软件工程问题。Devin 已集成,目前仅 Cognition 支持。

深度解读

产品是什么

Mythos 是由 Fable(前身为编剧 AI 工具公司)推出的大模型,专注于软件工程领域的超长任务处理。其核心创新在于后训练 + 测试时计算(test-time compute)——在推理阶段投入更多计算资源来解决需要数十人时(person-hours)、单任务成本数百美元的软件开发问题。

FrontierCode 则是配套发布的基准测试套件,定位为「编程基准的前沿」——对标 HumanEval(简单函数级)、SWE-bench(真实 GitHub Issue),FrontierCode 剑指需要跨系统架构设计、多模块协同的复杂任务。

解决什么问题

现有编程基准(HumanEval、MBPP)均针对短任务设计,无法评估 AI 在真实企业级开发中的能力上限。Mythos 通过 effort scaling——即在测试时动态分配更多 token 预算和思考链——首次让 AI 能在「数百美元成本」量级上完成原本需要人类团队数日的工作。

这意味着 AI 编程工具正式从「写代码片段」进化到「接手完整项目模块」。

对比同类竞品

参考来源
  1. Mythos 上线:FrontierCode 成为编程基准测试前沿 · 2026-06-09
  2. SWE-bench: Can Language Models Resolve Real-World GitHub Issues? · 2023-05-15
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。