研究 @Kimi_Moonshot 2026-05-14

Kimi K2.6 登顶 Finance Agent Benchmark V2 开源权重模型第一

月之暗面宣布 Kimi K2.6 在金融 Agent 基准测试 V2（Finance Agent Benchmark V2）上成为开源权重模型第一名。

TL;DR · 评测解读

Kimi K2.6 登顶金融 Agent 评测榜单，但资讯仅公布排名结果，缺失关键测试数据（具体分数、测试规模、评分标准），无法评估该成绩的真实含金量及与其他模型的实际差距。

深度解读

测什么？Benchmark 边界模糊

Finance Agent Benchmark V2（FAB V2）是面向金融场景的 Agent 能力评测，核心应涵盖：Financial Reasoning（金融推理）、Document Processing（研报/表格解析）、Tool Use / API Calling（行情数据调用）、Multi-step Planning（多步投资分析流程）等能力。但本次官方公告仅宣布"开源权重模型第一名"，完全没有披露任何量化指标——没有 AUC / Accuracy / Pass@k 等具体分数，没有与第二名的差距幅度，也没有说明与闭源模型（如 GPT-4o、Claude）的对比结果。

方法论质疑

这条 announcement 存在几个明显的方法论黑箱问题：

测试覆盖范围未知：FAB V2 测试了哪些具体任务？金融文本理解、实时行情查询、风险计算、投资建议生成？各维度的权重是什么？如果测试偏向特定任务（例えば财报摘要），K2.6 可能只是局部最优，而非通用金融 Agent 能力强。
Contamination 风险无法排除：月之暗面作为 Kaggle （或类似机构）的合作方或评测参与者，有机会接

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

Kimi K2.6 登顶 Finance Agent Benchmark V2 开源权重模型第一 · 2026-05-14

本解读由 AI 自动生成 · 模板：评测解读 · 仅供参考，请以原文为准。