本周(3月22日 — 28日)HuggingFace 共收录 163 篇论文,较上周略有回落,但高票论文密度显著提升(Top 10 均超 84 票),三条研究主线尤为突出。
第一条主线:生成范式简化——用扩散/单流替代复杂管线。MinerU-Diffusion(124票)用扩散解码替代自回归 OCR,3.2 倍加速;daVinci-MagiHuman(114票)用单流 Transformer 统一音视频生成,5 秒视频 2 秒生成;Calibri(44票)揭示 DiT 隐藏潜力,参数高效校准即可大幅提升生成质量。复杂管线正在被更简洁的替代方案取代。
第二条主线:世界模型与交互智能的评估体系成形。Omni-WorldBench(122票)首次系统评估 18 个世界模型的交互响应能力;WildWorld(84票)用 1.08 亿帧 ARPG 游戏数据构建动作-状态对齐基准;CUA-Suite(85票)为桌面 Agent 提供 55 小时人类操作视频。三篇论文联合补全了世界模型从数据到评估的完整链条。
第三条主线:Agent 自改进与形式化推理的突破。Meta Hyperagents(35票)实现了能改进自身改进机制的元认知 Agent;LongCat-Flash-Prover(74票)用 560B MoE 刷新 Lean4 形式化推理 SOTA;OpenResearcher(88票)完全开源深度研究 Agent 管线,BrowseComp-Plus 超越 GPT-4.1。Agent 正从"工具使用者"进化为"自我改进者"。
速览目录 · Top 20 本周热榜
| # | 论文 | 领域 | 日期 | Votes | 一句话 |
|---|---|---|---|---|---|
| 1 | MinerU-Diffusion | OCR/扩散 | 03-25 | 124 | 扩散解码替代自回归OCR,3.2倍加速+更强鲁棒性 |
| 2 | Omni-WorldBench | 世界模型 | 03-24 | 122 | 首个交互驱动世界模型评估基准,18模型全面测评 |
| 3 | daVinci-MagiHuman | 音视频生成 | 03-24 | 114 | 单流15B Transformer统一音视频生成,5秒视频2秒出 |
| 4 | Astrolabe | 视频RL | 03-23 | 104 | 前向过程RL校正蒸馏视频模型,无需反向展开 |
| 5 | HopChain | VLM/推理 | 03-23 | 104 | 多跳数据合成驱动VLM视觉推理,Qwen3.5 24项基准20项提升 |
| 6 | PixelSmile | 图像编辑 | 03-27 | 102 | 连续可控的细粒度面部表情编辑,解决语义重叠 |
| 7 | Intern-S1-Pro | 科学大模型 | 03-27 | 94 | 万亿参数科学多模态基础模型,512专家开源 |
| 8 | OpenResearcher | Agent/研究 | 03-24 | 88 | 全开源深度研究Agent,BrowseComp-Plus超越GPT-4.1 |
| 9 | CUA-Suite | Agent/GUI | 03-26 | 85 | 55小时人类操作视频+360万UI标注的桌面Agent基准 |
| 10 | AwaRes | VLM效率 | 03-24 | 84 | 按需检索高分辨率区域,VLM准确率-效率兼得 |
| 11 | WildWorld | 世界模型 | 03-25 | 84 | 1.08亿帧ARPG游戏数据集,动作-状态显式对齐 |
| 12 | LongCat-Flash-Prover | 形式推理 | 03-24 | 74 | 560B MoE刷新MiniF2F-Test 97.1%,Lean4形式推理SOTA |
| 13 | SpecEyes | Agent加速 | 03-25 | 57 | 投机感知+规划加速Agentic多模态LLM推理 |
| 14 | Workflow Survey | Agent/综述 | 03-25 | 51 | LLM Agent工作流优化综述:静态模板到动态运行时图 |
| 15 | VideoDetective | 视频理解 | 03-24 | 49 | 外部查询+内在关联双线索的长视频理解 |
| 16 | TerraScope | 遥感VLM | 03-23 | 48 | 像素级视觉推理赋能地球观测 |
| 17 | DA-Flow | 光流估计 | 03-25 | 47 | 退化感知扩散光流估计,真实世界鲁棒性大幅提升 |
| 18 | SpatialBoost | 视觉表征 | 03-24 | 44 | 语言引导增强视觉表征的空间推理能力 |
| 19 | Calibri | 图像生成 | 03-27 | 44 | 参数高效校准释放DiT隐藏生成潜力 |
| 20 | GeoFoundation-NVS | 3D/NVS | 03-24 | 43 | 几何基础模型复用于多视角扩散 |
MinerU-Diffusion:用扩散解码重构文档 OCR——3.2 倍加速、并行推理、开源 2.5B 模型
文档 OCR 已从单行识别进化到包含表格、公式、版面的结构化文档解析,但主流方案仍依赖自回归序列解码。MinerU-Diffusion 提出了一个根本性的范式转换:OCR 不是序列生成问题,而是逆渲染问题——从文档图像反向恢复其底层 Markdown/JSON 结构,天然适合并行扩散解码。
核心创新:采用块级扩散解码器(Block-wise Diffusion Decoder)替代自回归逐 token 生成,配合不确定性驱动的课程学习策略实现稳定训练。扩散解码在每个去噪步骤中同时预测整个输出块,彻底消除了顺序依赖。
项目在 MIT 协议下开源,提供三种推理后端和端到端解析管线。在长文档场景下优势更加明显——自回归解码的误差传播问题在长序列中被严重放大,而扩散解码天然并行,长度增加不会指数累积错误。
Omni-WorldBench:18 个世界模型的交互能力大考——首个系统性 4D 交互评估基准
视频世界模型正沿两条路线发展:视频生成和 3D 重建。但现有评估要么只看视觉保真度和文本对齐(生成方向),要么只看静态 3D 重建指标(忽略时序动态)。没有基准系统性评估世界模型最关键的维度——交互响应能力。
Omni-WorldBench 包含两大组件:Omni-WorldSuite(410 个涵盖不同交互层级和场景类型的系统化 prompt 集);Omni-Metrics(基于 Agent 的评估框架,通过测量交互动作对最终结果和中间状态演化轨迹的因果影响来量化世界建模能力)。
跨 3 个维度的 15 项指标全面覆盖:生成视频质量、交互效果保真度、相机和物体可控性。分析揭示当前世界模型在交互响应方面存在关键局限,为未来研究提供了可行的改进方向。
daVinci-MagiHuman:单流 15B Transformer 统一音视频生成——5 秒 1080p 视频 38 秒完成
音视频联合生成通常需要复杂的多流架构或交叉注意力机制。daVinci-MagiHuman 证明了一个极简方案:将文本、视频和音频 token 拼接在同一序列中,用纯自注意力的单流 Transformer 同时生成。没有交叉注意力,没有多流同步,只有一个 15B 参数、40 层的统一模型。
关键能力:表情丰富的面部动作、自然的语音-表情协调、逼真的身体运动、精确的音视频同步。支持中文(普通话/粤语)、英语、日语、韩语、德语、法语六种语言的口语生成。
完整模型栈开源:基础模型、蒸馏模型、超分模型和推理代码。在 2000 对人类评估中,对 Ovi 1.1 胜率 80.0%,对 LTX 2.3 胜率 60.9%。语音清晰度(WER 14.60%)在同类开源模型中最优。
Astrolabe:前向过程 RL 校正蒸馏视频模型——不展开反向过程也能对齐人类偏好
蒸馏后的自回归(AR)视频模型能高效流式生成,但经常与人类视觉偏好不一致。现有 RL 框架不太适合这类架构:要么需要昂贵的重新蒸馏,要么需要求解器耦合的反向过程优化(大量内存和计算开销)。
Astrolabe 提出前向过程 RL:基于负感知微调(negative-aware fine-tuning),直接在推理端点对比正负样本建立隐式策略改进方向,无需展开反向过程。这意味着 RL 校正可以在不牺牲实时推理速度的前提下完成。
在多种基线模型上,Astrolabe 一致且稳定地改善了短视频和长视频的视觉美学和时序一致性——同时保持实时推理速度不变。
HopChain:多跳数据合成驱动 VLM 视觉推理——Qwen3.5 两款模型 24 项基准 20 项提升
VLM 展示了强大的多模态能力,但在细粒度视觉-语言推理上仍然挣扎。长链推理暴露了感知、推理、知识等多种失败模式。HopChain 提出了一个可扩展的框架,为 RLVR 训练合成多跳视觉推理数据。
每个合成的多跳查询形成一条逻辑依赖链:前面的跳建立实例、集合或条件,后面的跳在此基础上推理。最终答案是明确无歧义的数字,适合可验证奖励。这是 Qwen3.5 VL RLVR 的训练数据来源之一。
将 HopChain 数据加入 Qwen3.5-35B-A3B 和 Qwen3.5-397B-A17B 的 RLVR 训练后,跨 STEM/通用 VQA/文档理解/视频理解四个领域 24 项基准中 20 项提升。多跳训练还增强了长 CoT 推理,超长链场景下准确率提升超过 50 个百分点。
Intern-S1-Pro:万亿参数科学多模态基础模型——512 专家、100+ 科学任务、完全开源
继 Intern-S1 之后,上海人工智能实验室将科学多模态模型推向万亿参数规模。Intern-S1-Pro 采用 512 个专家、每 token 激活 8 个专家(22B 激活参数)的 MoE 架构,在「通用-专业融合」(SAGE) 技术框架下训练。
能力覆盖极为广泛:数学和逻辑推理达到奥林匹克金牌水平;科学专长扩展到化学、材料科学、生命科学、地球科学等领域的 100+ 专业任务;同时具备先进的 Agent 能力和图文理解能力。
训练基于 XTuner 和 LMDeploy 基础设施,在万亿参数规模下实现了高效 RL 训练,同时严格保证训练-推理精度一致性。模型在 GitHub 和 HuggingFace 完全开源。
OpenResearcher:完全开源的深度研究 Agent——30B-A3B MoE 在 BrowseComp-Plus 超越 GPT-4.1
训练深度研究 Agent 需要长链交互轨迹——搜索、证据聚合和多步推理交错进行。但现有数据收集管线依赖私有 API 或人工标注,可复现性差。OpenResearcher 提出了一个完全开源、完全离线的管线:
将一次性语料库引导与多轮轨迹合成解耦,在 1500 万篇文档(约 110 亿 token)的自建语料库上,用三个显式浏览原语(search、open、find)执行搜索-浏览循环。以 GPT-OSS-120B 为教师模型,合成了超过 97K 条轨迹,其中包含大量 100+ 工具调用的长链样本。
最终的 30B-A3B MoE 模型在 BrowseComp-Plus 上达到 54.8% 准确率,超越 GPT-4.1、Claude Opus 4、Gemini-2.5-Pro、DeepSeek-R1 和通义-DeepResearch。已被 NVIDIA Nemotron 系列采用。全部管线、轨迹数据、模型权重和离线搜索环境均开源。