研究 @Kimi_Moonshot 2026-01-30

Kimi K2.5 技术报告发布

15T 视觉-文本 token 联合训练、Agent Swarm + PARL 并行子智能体延迟降低 4.5 倍、MoonViT-3D 统一图像视频编码器

TL;DR · 评测解读

Kimi 发布 K2.5 技术报告，核心突破在于 15T token 联合训练规模和 Agent Swarm 并行延迟优化，但技术报告缺乏可复现的评测细节——性能数据需要更多独立验证。

深度解读

K2.5 技术报告披露了三个关键技术维度：

训练规模：15T 视觉-文本 token 联合训练，显著高于业界主流开源 VLM 的训练 token 量（如 LLaVA 系列通常在 1-2T 量级）。这意味着模型在视觉-语言对齐层面的见过样本量级有数量级差异。
推理架构：Agent Swarm + PARL 实现并行子智能体延迟降低 4.5 倍。这是一个系统层面的优化，指向多 Agent 协作场景下的效率提升，而非单模型能力本身。
视觉编码器：MoonViT-3D 统一图像和视频编码，这消解了传统方案中图像编码器和视频编码器分离的架构开销。

这里存在几个需要审视的问题：

Missing Baseline：技术报告没有披露与哪些竞品的对比基准。"降低 4.5 倍延迟"是相对什么基线？相对 K2.0 版本还是相对 GPT-4V？语焉不详导致无法判断改善幅度的实际意义。
15T Token 的配比不明：15T visual-text token 中，

未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

本解读由 AI 自动生成 · 模板：评测解读 · 仅供参考，请以原文为准。