研究 @swyx 2026-06-09

Mythos 上线：FrontierCode 成为编程基准测试前沿

Mythos 和 Fable 的后训练将测试时计算用于解决超长任务（数十人时、数百美元每任务），首次实现有意义的 effort scaling，已在 Cognition Devin 上线，仅 1.4…

TL;DR · 产品解读

Mythos 作为 AI 编程模型正式上线，FrontierCode 成为首个针对「超长任务」的编程基准，引入 effort scaling 概念解决数十人时级别的复杂软件工程问题。Devin 已集成，目前仅 Cognition 支持。

深度解读

产品是什么

Mythos 是由 Fable（前身为编剧 AI 工具公司）推出的大模型，专注于软件工程领域的超长任务处理。其核心创新在于后训练 + 测试时计算（test-time compute）——在推理阶段投入更多计算资源来解决需要数十人时（person-hours）、单任务成本数百美元的软件开发问题。

FrontierCode 则是配套发布的基准测试套件，定位为「编程基准的前沿」——对标 HumanEval（简单函数级）、SWE-bench（真实 GitHub Issue），FrontierCode 剑指需要跨系统架构设计、多模块协同的复杂任务。

解决什么问题

现有编程基准（HumanEval、MBPP）均针对短任务设计，无法评估 AI 在真实企业级开发中的能力上限。Mythos 通过 effort scaling——即在测试时动态分配更多 token 预算和思考链——首次让 AI 能在「数百美元成本」量级上完成原本需要人类团队数日的工作。

这意味着 AI 编程工具正式从「写代码片段」进化到「接手完整项目模块」。

对比同类竞品

Devin（Cognition）：已上线集成 Mytho

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

Mythos 上线：FrontierCode 成为编程基准测试前沿 · 2026-06-09
SWE-bench: Can Language Models Resolve Real-World GitHub Issues? · 2023-05-15

本解读由 AI 自动生成 · 模板：产品解读 · 仅供参考，请以原文为准。