kimi-k2p5-rl-0317-s515-fast,直接揭露其基于月之暗面 Kimi K2.5 微调而来。这是中国开源大模型首次被确认为硅谷头部编程工具的基座模型。
这一事件的意义远超一次产品发布。它同时验证了三件事:中国开源模型的编程能力已达到商用水准;开源许可证的商业合规机制正在被严肃考验;AI 编程工具赛道的竞争已从"谁的模型更强"转向"谁的成本更低"。[1]
Cursor 背后的 Anysphere 公司估值正在冲击 500 亿美元,年化收入突破 20 亿美元。[2] 而为其提供基座的月之暗面估值 180 亿美元。[3] 一个 500 亿美元估值的硅谷公司,核心模型来自一个 180 亿美元估值的北京公司——这本身就是一个值得深入拆解的商业故事。
事件始末:从发布到曝光的 24 小时
一个模型 ID 引发的连锁反应
完整时间线
kimi-k2p5-rl-0317-s515-fast,明确指向 Kimi K2.5 + RL 微调[1]值得注意的是,这并非 Cursor 首次被发现使用中国模型。此前 Composer 1 就曾被开发者发现代码中包含中文注释和中文推理轨迹,暗示基座模型本身具有中文训练背景。[8] Cursor 研究员 Sasha Rush 在被直接询问"Composer 是否基于某个开源模型微调"时,选择了回避正面回答,仅表示"主要工作在 RL 后训练"。[8]
技术分析:Kimi K2.5 的编程实力
1.04T 参数 MoE 架构 + 原生多模态 + Agent Swarm
K2.5 核心架构
| 模型全称 | Kimi K2.5(Moonshot AI / 月之暗面) |
| 架构 | Mixture-of-Experts (MoE),61 层(1 层 Dense + 60 层 MoE) |
| 总参数量 | 1.04 万亿(1.04T) |
| 激活参数 | 32B(每次推理仅激活 3.2% 参数) |
| 专家数量 | 384 个专家,每 Token 激活 Top-8 + 1 共享专家 |
| 注意力机制 | MLA(Multi-head Latent Attention,源自 DeepSeek-V2) |
| 训练数据 | 约 15T 混合视觉与文本 Token |
| 上下文窗口 | 256K Token |
| 开源许可 | Modified MIT License(有商业使用门槛条件) |
| 发布日期 | 2026 年 1 月 26 日 |
Kimi K2.5 是在 Kimi-K2-Base 基础上,通过约 15 万亿混合视觉与文本 Token 进行持续预训练得到的原生多模态模型。[9] 与大多数"先训文本、后接视觉"的拼接方案不同,K2.5 在预训练阶段就整合了视觉与语言能力,实现文本与视觉模态的联合优化。
Composer 2 的技术管线
Cursor 在 K2.5 基础上执行了大规模持续预训练,专注于代码数据。据报道使用了"4 倍算力规模"的强化学习训练,并开发了 compaction-in-the-loop 机制——将上下文遗忘率降低 50%,智元效率提升 5 倍。[7] 最终模型通过 Fireworks AI 进行推理服务。
K2.5 独有技术亮点
性能对比:Composer 2 vs 竞品
CursorBench / Terminal-Bench / SWE-bench 三维评测
编程 Benchmark 对比
| 模型 | CursorBench | Terminal-Bench 2.0 | SWE-bench Multilingual |
|---|---|---|---|
| GPT-5.4 Thinking | 63.9 | 75.1 | -- |
| Composer 2 (K2.5 base) | 61.3 | 61.7 | 73.7 |
| Claude Opus 4.6 | 58.2 | 58.0 | 77.8 |
| Composer 1.5 | 44.2 | 47.9 | 65.9 |
| Composer 1 | 38.0 | 40.0 | 56.9 |
Composer 2 在 CursorBench 上得分 61.3,超越 Claude Opus 4.6 的 58.2(高出 5.3%),但仍落后于 GPT-5.4 Thinking 的 63.9。[5] 在 Terminal-Bench 2.0 上,Composer 2 同样领先 Opus 4.6(61.7 vs 58.0),但与 GPT-5.4 的 75.1 差距明显。[11]
从代际进步看,Composer 2 较 Composer 1.5 在 CursorBench 上提升了 17.1 分(+38.7%),在 SWE-bench 上提升近 8 分(+11.8%)——这是 Cursor 迄今最大的单代性能跃升。[5]
Kimi K2.5 基座模型自身表现
| Benchmark | K2.5 得分 | 对标竞品 |
|---|---|---|
| SWE-Bench Verified | 76.8% | -- |
| LiveCodeBench v6 | 85.0% | Claude Opus 4.5: 64.0% |
| HLE-Full (w/ tools) | 50.2% | GPT-5.2: 45.5% |
| AIME 2025 | 96.1% | -- |
| MMMU-Pro | 78.5% | -- |
| BrowseComp (Agent Swarm) | 78.4% | -- |
K2.5 基座模型自身在 LiveCodeBench v6 上达到 85.0%,大幅领先 Claude Opus 4.5 的 64.0%。在 Humanity's Last Exam(HLE)上得 50.2%,超越 GPT-5.2 的 45.5%。[9] 这些数据解释了 Cursor 选择 K2.5 作为基座的原因——在编程与推理能力上,K2.5 在开源模型中处于领先位置。
定价分析:成本优势的背后
价格低 90%,性能可比,成本结构彻底改变
| 模型 | 输入价格 ($/M tokens) | 输出价格 ($/M tokens) | 综合成本指数 |
|---|---|---|---|
| Claude Opus 4.6 | $5.00 | $25.00 | 100%(基准) |
| GPT-5.4 | $2.50 | $15.00 | 58% |
| Composer 2 Fast | $1.50 | $7.50 | 30% |
| Composer 2 Standard | $0.50 | $2.50 | 10% |
| Kimi K2.5 (OpenRouter) | $0.45 | $2.20 | 9% |
| Composer 1.5 (旧版) | $3.50 | $17.50 | 73% |
Composer 2 Standard 版定价 $0.50/$2.50(输入/输出),比 Claude Opus 4.6 低约 90%,比 Composer 1.5 低 86%。[11] 即便是 Composer 2 Fast 版($1.50/$7.50),成本也仅为 Claude Opus 4.6 的 30%。
这一定价策略的基础是 Kimi K2.5 的开源特性。Kimi K2.5 在 OpenRouter 上的直接调用价格仅 $0.45/$2.20,甚至低于 Composer 2 Standard。[12] Cursor 在 K2.5 基础上增加了大量工程价值(持续预训练、RL 优化、IDE 集成),其定价仍然能控制在极低水平,根本原因在于基座模型的获取成本趋近于零。