HF论文周报 W13 | MinerU-Diffusion重构OCR、万亿参数开源、Meta Hyperagents自改进AI、daVinci-MagiHuman音视频统一生成｜HF 周报 0328

周度 Insight：本周论文的核心叙事是「范式替代」。扩散模型不再只生成图像——MinerU-Diffusion 用它替代 OCR 的自回归解码，3.2 倍加速；视频生成不再需要多流架构——daVinci-MagiHuman 证明单流 Transformer 可以同时生成音频和视频；RL 训练不再局限于文本——Astrolabe 将其推入视频模型的蒸馏校正。当每个子领域都在寻找更简洁高效的替代路径时，复杂度本身正在成为被优化的对象。

本周（3月22日 — 28日）HuggingFace 共收录 163 篇论文，较上周略有回落，但高票论文密度显著提升（Top 10 均超 84 票），三条研究主线尤为突出。

第一条主线：生成范式简化——用扩散/单流替代复杂管线。MinerU-Diffusion（124票）用扩散解码替代自回归 OCR，3.2 倍加速；daVinci-MagiHuman（114票）用单流 Transformer 统一音视频生成，5 秒视频 2 秒生成；Calibri（44票）揭示 DiT 隐藏潜力，参数高效校准即可大幅提升生成质量。复杂管线正在被更简洁的替代方案取代。

第二条主线：世界模型与交互智能的评估体系成形。Omni-WorldBench（122票）首次系统评估 18 个世界模型的交互响应能力；WildWorld（84票）用 1.08 亿帧 ARPG 游戏数据构建动作-状态对齐基准；CUA-Suite（85票）为桌面 Agent 提供 55 小时人类操作视频。三篇论文联合补全了世界模型从数据到评估的完整链条。

第三条主线：Agent 自改进与形式化推理的突破。Meta Hyperagents（35票）实现了能改进自身改进机制的元认知 Agent；LongCat-Flash-Prover（74票）用 560B MoE 刷新 Lean4 形式化推理 SOTA；OpenResearcher（88票）完全开源深度研究 Agent 管线，BrowseComp-Plus 超越 GPT-4.1。Agent 正从"工具使用者"进化为"自我改进者"。

速览目录 · Top 20 本周热榜

#	论文	领域	日期	Votes	一句话
1	MinerU-Diffusion	OCR/扩散	03-25	124	扩散解码替代自回归OCR，3.2倍加速+更强鲁棒性
2	Omni-WorldBench	世界模型	03-24	122	首个交互驱动世界模型评估基准，18模型全面测评
3	daVinci-MagiHuman	音视频生成	03-24	114	单流15B Transformer统一音视频生成，5秒视频2秒出
4	Astrolabe	视频RL	03-23	104	前向过程RL校正蒸馏视频模型，无需反向展开
5	HopChain	VLM/推理	03-23	104	多跳数据合成驱动VLM视觉推理，Qwen3.5 24项基准20项提升
6	PixelSmile	图像编辑	03-27	102	连续可控的细粒度面部表情编辑，解决语义重叠
7		科学大模型	03-27	94	万亿参数科学多模态基础模型，512专家开源
8	OpenResearcher	Agent/研究	03-24	88	全开源深度研究Agent，BrowseComp-Plus超越GPT-4.1
9	CUA-Suite	Agent/GUI	03-26	85	55小时人类操作视频+360万UI标注的桌面Agent基准
10	AwaRes	VLM效率	03-24	84	按需检索高分辨率区域，VLM准确率-效率兼得
11	WildWorld	世界模型	03-25	84	1.08亿帧ARPG游戏数据集，动作-状态显式对齐
12	LongCat-Flash-Prover	形式推理	03-24	74	560B MoE刷新MiniF2F-Test 97.1%，Lean4形式推理SOTA
13	SpecEyes	Agent加速	03-25	57	投机感知+规划加速Agentic多模态LLM推理
14	Workflow Survey	Agent/综述	03-25	51	LLM Agent工作流优化综述：静态模板到动态运行时图
15	VideoDetective	视频理解	03-24	49	外部查询+内在关联双线索的长视频理解
16	TerraScope	遥感VLM	03-23	48	像素级视觉推理赋能地球观测
17	DA-Flow	光流估计	03-25	47	退化感知扩散光流估计，真实世界鲁棒性大幅提升
18	SpatialBoost	视觉表征	03-24	44	语言引导增强视觉表征的空间推理能力
19	Calibri	图像生成	03-27	44	参数高效校准释放DiT隐藏生成潜力
20	GeoFoundation-NVS	3D/NVS	03-24	43	几何基础模型复用于多视角扩散

01 / 10

MinerU-Diffusion：用扩散解码重构文档 OCR——3.2 倍加速、并行推理、开源 2.5B 模型

124 upvotes OCR/扩散 · OpenDataLab · 03-25

文档 OCR 已从单行识别进化到包含表格、公式、版面的结构化文档解析，但主流方案仍依赖自回归序列解码。MinerU-Diffusion 提出了一个根本性的范式转换：OCR 不是序列生成问题，而是逆渲染问题——从文档图像反向恢复其底层 Markdown/JSON 结构，天然适合并行扩散解码。

核心创新：采用块级扩散解码器（Block-wise Diffusion Decoder）替代自回归逐 token 生成，配合不确定性驱动的课程学习策略实现稳定训练。扩散解码在每个去噪步骤中同时预测整个输出块，彻底消除了顺序依赖。

3.2x

解码加速（vs 自回归基线）

2.5B

模型参数量（完全开源）

MIT

开源协议

项目在 MIT 协议下开源，提供三种推理后端和端到端解析管线。在长文档场景下优势更加明显——自回归解码的误差传播问题在长序列中被严重放大，而扩散解码天然并行，长度增加不会指数累积错误。

编辑解读「左到右」是排字时代的遗产，不是 OCR 的本质。当扩散模型证明可以并行「渲染出」文档结构时，自回归 OCR 的最后一个优势——简单训练——也在课程学习面前不再独特。这可能是文档 AI 管线的拐点。

🔗 arXiv:2603.22458 · HF Papers · GitHub

02 / 10

Omni-WorldBench：18 个世界模型的交互能力大考——首个系统性 4D 交互评估基准

122 upvotes 世界模型/评测 · AMAP-ML · 03-24

视频世界模型正沿两条路线发展：视频生成和 3D 重建。但现有评估要么只看视觉保真度和文本对齐（生成方向），要么只看静态 3D 重建指标（忽略时序动态）。没有基准系统性评估世界模型最关键的维度——交互响应能力。

Omni-WorldBench 包含两大组件：Omni-WorldSuite（410 个涵盖不同交互层级和场景类型的系统化 prompt 集）；Omni-Metrics（基于 Agent 的评估框架，通过测量交互动作对最终结果和中间状态演化轨迹的因果影响来量化世界建模能力）。

评估的世界模型数量

跨 3 个维度的评估指标

410

系统化测试 prompt 数

跨 3 个维度的 15 项指标全面覆盖：生成视频质量、交互效果保真度、相机和物体可控性。分析揭示当前世界模型在交互响应方面存在关键局限，为未来研究提供了可行的改进方向。

编辑解读世界模型不只是"画视频"——它需要理解"如果我按下按钮，世界会怎样变化"。Omni-WorldBench 把这个核心能力变成了可测量的指标，这对整个世界模型社区的研究方向会有深远影响。

🔗 arXiv:2603.22212 · HF Papers · GitHub

03 / 10

daVinci-MagiHuman：单流 15B Transformer 统一音视频生成——5 秒 1080p 视频 38 秒完成

114 upvotes 音视频生成 · GAIR-NLP · 03-24

音视频联合生成通常需要复杂的多流架构或交叉注意力机制。daVinci-MagiHuman 证明了一个极简方案：将文本、视频和音频 token 拼接在同一序列中，用纯自注意力的单流 Transformer 同时生成。没有交叉注意力，没有多流同步，只有一个 15B 参数、40 层的统一模型。

关键能力：表情丰富的面部动作、自然的语音-表情协调、逼真的身体运动、精确的音视频同步。支持中文（普通话/粤语）、英语、日语、韩语、德语、法语六种语言的口语生成。

2 秒

生成 5 秒 256p 视频（单 H100）

80%

人类评估胜率 vs Ovi 1.1

14.6%

WER（语音清晰度最优）

完整模型栈开源：基础模型、蒸馏模型、超分模型和推理代码。在 2000 对人类评估中，对 Ovi 1.1 胜率 80.0%，对 LTX 2.3 胜率 60.9%。语音清晰度（WER 14.60%）在同类开源模型中最优。

编辑解读「Speed by Simplicity」——标题就是最好的技术总结。当多流、交叉注意力、同步模块都被一个纯自注意力替代，工程复杂度下降的同时效果反而更好。这是对"复杂度税"最有力的反驳。

🔗 arXiv:2603.21986 · HF Papers · GitHub · HF Model

04 / 10

Astrolabe：前向过程 RL 校正蒸馏视频模型——不展开反向过程也能对齐人类偏好

104 upvotes 视频RL · 03-23

蒸馏后的自回归（AR）视频模型能高效流式生成，但经常与人类视觉偏好不一致。现有 RL 框架不太适合这类架构：要么需要昂贵的重新蒸馏，要么需要求解器耦合的反向过程优化（大量内存和计算开销）。

Astrolabe 提出前向过程 RL：基于负感知微调（negative-aware fine-tuning），直接在推理端点对比正负样本建立隐式策略改进方向，无需展开反向过程。这意味着 RL 校正可以在不牺牲实时推理速度的前提下完成。

在多种基线模型上，Astrolabe 一致且稳定地改善了短视频和长视频的视觉美学和时序一致性——同时保持实时推理速度不变。

编辑解读视频 RL 的关键瓶颈是反向过程展开的成本。Astrolabe 绕过这个瓶颈的方式优雅而实用——前向过程的对比学习。这使得 RL 校正视频模型在工程上变得可行。

🔗 arXiv:2603.17051 · HF Papers · GitHub

05 / 10

HopChain：多跳数据合成驱动 VLM 视觉推理——Qwen3.5 两款模型 24 项基准 20 项提升

104 upvotes VLM/推理 · Qwen + Tsinghua LeapLab · 03-23

VLM 展示了强大的多模态能力，但在细粒度视觉-语言推理上仍然挣扎。长链推理暴露了感知、推理、知识等多种失败模式。HopChain 提出了一个可扩展的框架，为 RLVR 训练合成多跳视觉推理数据。

每个合成的多跳查询形成一条逻辑依赖链：前面的跳建立实例、集合或条件，后面的跳在此基础上推理。最终答案是明确无歧义的数字，适合可验证奖励。这是 Qwen3.5 VL RLVR 的训练数据来源之一。

20/24

基准测试提升（无针对性优化）

50+

超长 CoT 准确率提升（百分点）

2 款

Qwen3.5 模型验证（35B/397B）

将 HopChain 数据加入 Qwen3.5-35B-A3B 和 Qwen3.5-397B-A17B 的 RLVR 训练后，跨 STEM/通用 VQA/文档理解/视频理解四个领域 24 项基准中 20 项提升。多跳训练还增强了长 CoT 推理，超长链场景下准确率提升超过 50 个百分点。

编辑解读来自 Qwen 团队的直接贡献——HopChain 不是事后验证，而是 Qwen3.5 VL 的实际训练组件。它证明了合成多跳数据对 RLVR 的普适价值，且未针对任何特定基准优化就带来广泛提升。

🔗 arXiv:2603.17024 · HF Papers

06 / 10

：万亿参数科学多模态基础模型——512 专家、100+ 科学任务、完全开源

94 upvotes 科学大模型 · Shanghai AI Lab (InternLM) · 03-27

继 Intern-S1 之后，上海人工智能实验室将科学多模态模型推向万亿参数规模。采用 512 个专家、每 token 激活 8 个专家（22B 激活参数）的 MoE 架构，在「通用-专业融合」(SAGE) 技术框架下训练。

能力覆盖极为广泛：数学和逻辑推理达到奥林匹克金牌水平；科学专长扩展到化学、材料科学、生命科学、地球科学等领域的 100+ 专业任务；同时具备先进的 Agent 能力和图文理解能力。

总参数量（首个万亿级科学模型）

512

MoE 专家数

100+

覆盖的科学专业任务

训练基于 XTuner 和 LMDeploy 基础设施，在万亿参数规模下实现了高效 RL 训练，同时严格保证训练-推理精度一致性。模型在 GitHub 和 HuggingFace 完全开源。

编辑解读当万亿参数模型开始专注科学领域，AI4Science 进入了新阶段。512 专家的 MoE 设计使得 22B 的激活开销在推理侧仍然可控——这是"大而可用"的工程智慧。

🔗 arXiv:2603.25040 · HF Papers · GitHub · HF Model

07 / 10

OpenResearcher：完全开源的深度研究 Agent——30B-A3B MoE 在 BrowseComp-Plus 超越 GPT-4.1

88 upvotes Agent/研究 · TIGER-AI-Lab · 03-24

训练深度研究 Agent 需要长链交互轨迹——搜索、证据聚合和多步推理交错进行。但现有数据收集管线依赖私有 API 或人工标注，可复现性差。OpenResearcher 提出了一个完全开源、完全离线的管线：

将一次性语料库引导与多轮轨迹合成解耦，在 1500 万篇文档（约 110 亿 token）的自建语料库上，用三个显式浏览原语（search、open、find）执行搜索-浏览循环。以 GPT-OSS-120B 为教师模型，合成了超过 97K 条轨迹，其中包含大量 100+ 工具调用的长链样本。

54.8%

BrowseComp-Plus 准确率

30B-A3B

MoE 模型规模

97K+

合成训练轨迹数

最终的 30B-A3B MoE 模型在 BrowseComp-Plus 上达到 54.8% 准确率，超越 GPT-4.1、Claude Opus 4、Gemini-2.5-Pro、DeepSeek-R1 和通义-DeepResearch。已被 NVIDIA Nemotron 系列采用。全部管线、轨迹数据、模型权重和离线搜索环境均开源。

编辑解读Deep Research 赛道的"LLaMA 时刻"——当完整管线开源且性能超越闭源 SOTA 时，社区的创新速度将被加速释放。97K 轨迹数据本身就是宝贵的训练资源。

🔗 arXiv:2603.20278 · HF Papers · GitHub

HF论文周报 W13 | 扩散OCR颠覆序列解码、万亿参数科学大模型开源、Meta自改进Agent、音视频统一生成新范式

速览目录 · Top 20 本周热榜

MinerU-Diffusion：用扩散解码重构文档 OCR——3.2 倍加速、并行推理、开源 2.5B 模型

Omni-WorldBench：18 个世界模型的交互能力大考——首个系统性 4D 交互评估基准

daVinci-MagiHuman：单流 15B Transformer 统一音视频生成——5 秒 1080p 视频 38 秒完成

Astrolabe：前向过程 RL 校正蒸馏视频模型——不展开反向过程也能对齐人类偏好

HopChain：多跳数据合成驱动 VLM 视觉推理——Qwen3.5 两款模型 24 项基准 20 项提升

：万亿参数科学多模态基础模型——512 专家、100+ 科学任务、完全开源

OpenResearcher：完全开源的深度研究 Agent——30B-A3B MoE 在 BrowseComp-Plus 超越 GPT-4.1

LongCat-Flash-Prover：560B MoE 刷新 Lean4 形式推理——MiniF2F-Test 97.1%、开源可部署

Hyperagents：Meta 提出能改进自己改进机制的 AI——元认知自改进 Agent

CUA-Suite：55 小时人类操作视频 + 360 万 UI 标注——桌面 Agent 的大规模训练数据

登录后查看完整内容

本周四大趋势

本周新模型 / 新工具

daVinci-MagiHuman (15B)

(1T)

LongCat-Flash-Prover (560B MoE)

OpenResearcher (30B-A3B MoE)

MinerU-Diffusion (2.5B)

HyperAgents (Meta)

开发者实用建议

数据来源