Mythos 上线:FrontierCode 成为编程基准测试前沿
Mythos 和 Fable 的后训练将测试时计算用于解决超长任务(数十人时、数百美元每任务),首次实现有意义的 effort scaling,已在 Cognition Devin 上线,仅 1.4…
查看原文Mythos 作为 AI 编程模型正式上线,FrontierCode 成为首个针对「超长任务」的编程基准,引入 effort scaling 概念解决数十人时级别的复杂软件工程问题。Devin 已集成,目前仅 Cognition 支持。
产品是什么
Mythos 是由 Fable(前身为编剧 AI 工具公司)推出的大模型,专注于软件工程领域的超长任务处理。其核心创新在于后训练 + 测试时计算(test-time compute)——在推理阶段投入更多计算资源来解决需要数十人时(person-hours)、单任务成本数百美元的软件开发问题。
FrontierCode 则是配套发布的基准测试套件,定位为「编程基准的前沿」——对标 HumanEval(简单函数级)、SWE-bench(真实 GitHub Issue),FrontierCode 剑指需要跨系统架构设计、多模块协同的复杂任务。
解决什么问题
现有编程基准(HumanEval、MBPP)均针对短任务设计,无法评估 AI 在真实企业级开发中的能力上限。Mythos 通过 effort scaling——即在测试时动态分配更多 token 预算和思考链——首次让 AI 能在「数百美元成本」量级上完成原本需要人类团队数日的工作。
这意味着 AI 编程工具正式从「写代码片段」进化到「接手完整项目模块」。
对比同类竞品
- Devin(Cognition):已上线集成 Mytho
● 未登录访客SMARTFLOW PRO
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
加入机智流 PRO →¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- Mythos 上线:FrontierCode 成为编程基准测试前沿 · 2026-06-09
- SWE-bench: Can Language Models Resolve Real-World GitHub Issues? · 2023-05-15