HF论文周报 | 3月第二周：通用点云编码器登顶、异构Agent协同RL突破、实时长视频14B模型冲击速度天花板｜HF 周报 0308

速览目录 · Top 30 本周热榜

#	论文	领域	日期	Votes	一句话
1	Utonia	3D视觉	03-04	153	单编码器横跨五大点云域，跨域涌现提升机器人操作8.3%
2	HACRL	多智能体RL	03-05	151	异构Agent共享验证轨迹互学，训练协同推理独立
3	Helios	视频生成	03-05	146	14B自回归扩散模型单H100实时19.5 FPS长视频
4	OmniLottie	矢量动画	03-03	134	参数化Lottie Token自回归生成，多模态驱动矢量动画
5	ADE-CoT	图像编辑	03-03	132	难度感知预算分配+早期剪枝，图像编辑CoT 2倍加速
6	dLLM	扩散LM	03-02	123	统一扩散语言模型框架，支持LLaDA/Dream复现与微调
7	T2S-Bench & SoT	结构化推理	03-05	110	结构化思维提示+1.8K样本评测，8任务平均+5.7%
8	MOOSE-Star	科学发现	03-06	83	打破O(N^k)组合壁垒，RL驱动科学假说生成训练
9	CUDA Agent	代码Agent	03-02	80	Agentic RL训练CUDA专家，100%超越torch.compile
10	UniG2U-Bench	多模态	03-04	80	30+模型评测发现统一模型普遍弱于基础VLM
11	SWE-rebench V2	代码Agent	03-03	77	语言无关SWE任务采集管线，规模化构建RL训练环境
12	Meta FAIR 多模态	多模态预训练	03-04	77	从头预训练揭示RAE/数据协同/MoE四大设计准则
13	SkillNet	Agent	03-06	68	20万+技能库，统一创建/评测/连接AI技能基础设施
14	RubricBench	评测	03-03	53	模型生成评分标准与人类标准的对齐程度评测基准
15	BeyondSWE	代码Agent	03-04	52	500个跨仓库任务暴露代码Agent能力缺口，<45%
16	SpatialReward	图像生成	03-02	50	SpatialReward 数据集+奖励模型强化文生图空间关系
17	DARE	R生态Agent	03-06	45	分布感知检索嵌入对接LLM与R统计生态
18	CHIMERA	推理数据	03-03	44	9K紧凑合成推理数据，4B模型追平235B
19	OpenAutoNLU	NLU	03-03	44	开源NLU自动机器学习库
20	Qwen3-Coder-Next	代码模型	03-04	43	80B总参/3B激活MoE代码Agent，逼近十倍体量模型
21	MMR-Life	多模态	03-03	42	真实场景多模态记忆检索基准
22	RITranslation	多语言	03-02	39	自动化基准翻译框架+T-RANK多轮竞争排序
23	Mode-Mean Video	视频生成	03-02	38	模式求解+均值求解解耦局部保真与长程一致性
24	AgentVista	多模态Agent	03-06	36	超高难度多模态Agent评测基准
25	VGGT-Det	3D检测	03-03	34	挖掘VGGT内部先验的无传感器几何3D检测
26	CMI-RewardBench	音乐	03-03	32	音乐奖励模型的组合与感知指令评测
27	Mix-GRM	奖励模型	03-04	32	广度+深度双CoT让生成式奖励模型提升8.2%
28	RoboPocket	机器人	03-06	30	手机即时改善机器人策略
29	MemSifter	LLM记忆	03-05	27	结果驱动代理推理卸载LLM记忆检索
30	Kling-MotionControl	视频生成	03-04	26	分治策略统一DiT框架实现全身角色动画精细可控

本周（3月2日—8日）HuggingFace 共收录 151 篇论文，三条研究主线格外清晰。

第一条主线：「一个模型通吃」的基础模型路线持续推进与被质疑。Utonia（153票）用单个 Point Transformer 横跨遥感/LiDAR/室内/物体/视频五大点云域，验证了跨域联合训练的涌现效应；然而 UniG2U-Bench（80票）对 30+ 统一多模态模型的严格评测表明，生成能力并未普遍提升理解——「大一统」的承诺需要更精细的工程来兑现。

第二条主线：强化学习从通用推理向专业工程领域全面渗透。HACRL（151票）让异构Agent在训练阶段共享验证轨迹互相学习，推理时各自独立；CUDA Agent（80票）把 Agentic RL 推入 GPU Kernel 优化领域，在最难设置上超越 Claude Opus 4.5 约 40%；MOOSE-Star（83票）将 RL 引入科学假说生成，巧妙地把 O(N^k) 组合复杂度降至 O(N+k)。

第三条主线：实时生成与基础设施框架化齐头并进。Helios（146票）实现 14B 模型单 H100 实时 19.5 FPS 长视频生成；dLLM（123票）为扩散语言模型建立统一开发框架；SkillNet（68票）构建了超 20 万 AI 技能的可组合基础设施——各子领域正从探索期走向工程化。

周度 Insight：本周论文的核心矛盾在于「统一」叙事的理想与现实。一方面 Utonia 证明五域点云的统一编码器确实能产生跨域涌现；另一方面 UniG2U-Bench 和 BeyondSWE 揭示统一模型在多模态理解和跨仓库代码工程上的能力缺口。这种张力提示：统一不是目的，关键是在统一框架中实现能力的真正迁移而非简单叠加。

01 / 15

Utonia：一个编码器统一五域点云，跨域涌现推动机器人操作提升 8.3%

153 upvotes 3D视觉 · HKU + CUHK + Xiaomi · 03-04

Utonia Overview — Utonia 特征 PCA 可视化：城市级遥感、室外 LiDAR、室内重建、物体扫描四域在同一表征空间内保持语义一致性

点云数据来自遥感卫星、自动驾驶 LiDAR、室内 RGB-D、CAD 模型等截然不同的传感器，尺度、密度、采样模式差异极端。此前的自监督点云模型（如 Sonata、Concerto）只能在单一或少数域内训练。Utonia 用单一 Point Transformer 编码器，首次同时覆盖遥感、室外 LiDAR、室内 RGB-D 序列、物体 CAD 模型、视频点云五大域进行联合自监督预训练。

核心技术创新在于自适应颜色/法向量（C./N.）机制：不同域的输入模态不一致（有些有颜色无法向量，有些相反），Utonia 自动降级缺失模态，避免模型学到域特异性捷径，从而保留跨域可迁移的几何语义特征。预训练采用 masked autoencoding 范式。

5 域

遥感/LiDAR/室内/物体/视频联合

+2.1 mIoU

ScanNet 语义分割超单域预训练

+8.3%

VLA 机器人操作成功率提升

实验验证了联合训练的跨域涌现效应：ScanNet 语义分割超越单域预训练 2.1 mIoU，nuScenes 检测提升 1.8 NDS。更关键的是 Utonia 表征在下游任务的迁移——接入 VLA 后机器人操作成功率提升 8.3%，接入 VLM 进行空间推理同样有增益。通用点云表征不仅惠及感知，也能提升具身 AI 与多模态推理。

编辑解读五个截然不同的点云域共享一个编码器后，涌现出比单独训练更强的表征——稀疏 3D 基础模型的路已经通了。

🔗 arXiv:2603.03283 · HF Papers · PaperScope

02 / 15

HACRL：训练时协同、推理时独立——异构Agent共享轨迹互学的新范式

151 upvotes 多智能体RL · BUPT + ByteDance + Tsinghua + PKU · 03-05

HACRL Overview — HACRL 对比多智能体 RL 与知识蒸馏：训练时协同优化、推理时独立执行的双向互学新范式

RLVR（可验证奖励强化学习）已成为强化 LLM 推理的核心方法，但面临昂贵的在线采样瓶颈：每个 Agent 自己生成轨迹、做验证，多个 Agent 面对同一任务时大量重复采样。HACRL 提出了一个全新范式：让不同结构的 Agent（参数量、架构或预训练数据各异）在训练阶段共享经过验证的推理轨迹，互相从对方的成功和失败中学习。

关键算法 HACPO 解决异构模型间能力差异和策略分布偏移的技术挑战，引入四项机制：无偏优势估计、分布加权、截断和归一化，并提供理论保证。与知识蒸馏的根本区别在于 HACRL 是双向互学而非单向师生关系——小模型能从大模型学到推理策略，大模型也能从小模型的成功路径中获得启发。

+3.3%

平均超越 GSPO

1/2 成本

仅用一半 rollout 采样成本

双向互学

非师生蒸馏，异构Agent互相受益

在多种异构模型组合和推理基准上，HACPO 让所有参与 Agent 都获得提升，平均超越 GSPO 3.3%，且采样成本减半。推理时各模型完全独立部署，无需协同开销。

编辑解读训练时共享彼此的推理轨迹互学，推理时各自独立运行——HACRL 把多 Agent 系统的协作成本前置到训练阶段，零推理开销。

🔗 arXiv:2603.02604 · HF Papers · PaperScope

03 / 15

Helios：14B 参数单 H100 实时 19.5 FPS——大模型长视频生成的速度新标杆

146 upvotes 视频生成 · PKU + ByteDance + Canva · 03-05

Helios Overview — 各视频生成模型单 H100 端到端吞吐量（FPS）对比：Helios 14B 大幅领先同等规模模型

视频生成领域的核心矛盾：更大参数量带来更好质量，但推理速度和长视频稳定性严重不足。现有实时方案通常用 1.3B 小模型，复杂运动表现有限；Krea-RealTime-14B 虽扩大规模但单 H100 仅 6.7 FPS。Helios 在三个关键维度同时实现突破：

(1) 抗漂移训练：分析长视频漂移的失败模式，提出在训练时显式模拟漂移现象，从根源消除重复运动，无需 Self-Forcing 或关键帧采样等启发式方法；(2) 实时推理：通过大幅压缩历史上下文和噪声上下文、减少采样步数，使 14B 模型的计算成本接近 1.3B 模型；(3) 训练效率：基础设施级优化让 80GB GPU 内存可容纳多个 14B 模型实例。

19.5 FPS

单 H100 端到端实时吞吐

14B

自回归扩散模型参数量

分钟级

无漂移长视频连续生成

在短视频和长视频基准上，Helios 始终优于蒸馏模型，同时接近基础大模型的生成质量。团队计划开源代码、基础模型和蒸馏模型权重。

编辑解读14B 参数、19.5 FPS、单张 H100——Helios 证明实时长视频生成不需要以质量换速度。

🔗 arXiv:2603.04379 · HF Papers · PaperScope

04 / 15

OmniLottie：将矢量动画压缩为语义 Token，多模态指令驱动 Lottie 生成

134 upvotes 矢量动画 · Fudan + StepFun + HKU · 03-03

OmniLottie Overview — OmniLottie 支持文本、图像、视频多模态指令驱动生成跨平台兼容的 Lottie 矢量动画

Lottie 是一种广泛使用的矢量动画格式，以 JSON 存储所有形状、效果和运动参数，具备跨平台兼容和轻量可编辑的优势。但直接让 LLM 生成 Lottie JSON 有本质困难：原始 JSON 充斥大量不变的结构性元数据，语义信息密度极低，导致生成成功率差且难以控制动画内容。

OmniLottie 的核心贡献是设计了专用 Lottie Tokenizer，把 JSON 文件转换为形状、动画函数和控制参数的结构化指令序列——大幅压缩序列长度同时保留完整语义。基于此 Tokenizer，在预训练 VLM 上端到端微调，支持文本→Lottie、图文→Lottie、视频→Lottie 三类任务。配套发布的 MMLottie-2M 数据集包含 200 万条专业设计矢量动画及文本/视觉标注。

MMLottie-2M

200万专业矢量动画数据集

3 模态

文本/图文/视频→Lottie

端到端

VLM 微调，无需规则后处理

实验验证 OmniLottie 生成的矢量动画语义一致、动效自然、格式合规，成功率显著优于直接输出 JSON 的基线。这项工作填补了生成式 AI 在轻量级矢量媒介上的空白。

编辑解读把 Lottie JSON 压缩成语义 Token 序列，让 VLM 像理解图文一样理解和生成动画——矢量创意内容自动化的新突破口。

🔗 arXiv:2603.02138 · HF Papers · PaperScope

05 / 15

ADE-CoT：图像编辑不是开放任务——难度感知自适应 CoT 实现 2× 加速

132 upvotes 图像编辑 · IIE-CAS + Alibaba AMAP · 03-03

ADE-CoT Overview — T2I 生成（开放任务）vs 图像编辑（目标导向）：ADE-CoT 针对后者的特性做自适应预算分配

Image-CoT 通过生成多个候选方案再选优来提升图像质量，已在文生图任务上取得显著效果。但直接迁移到图像编辑面临三个问题：(1) 简单编辑上固定采样预算造成计算浪费；(2) 通用 MLLM 打分在早期阶段不可靠；(3) 目标导向任务中大量采样产生冗余正确结果。

ADE-CoT（自适应编辑 CoT）提出三项针对性策略：① 难度感知资源分配——根据预估编辑难度动态调整采样预算；② 编辑专用早期验证——用区域定位和字幕一致性评估替代通用打分做候选筛选；③ 深度优先机会性停止——由实例级验证器引导，一旦找到意图对齐的结果即终止。三者联合适用于 Step1X-Edit、BAGEL、FLUX.1 Kontext 等前沿编辑模型。

2× 加速

相同预算下性能更优

3 基准

Step1X/BAGEL/FLUX 通用

动态预算

难度感知采样分配

在三个基准上，ADE-CoT 在可比采样预算下 超越 Best-of-N 同时实现 2× 以上加速，为图像编辑的测试时计算扩展提供了高效方案。

编辑解读图像编辑不是开放创作，固定 32 个样本对简单编辑是纯粹浪费——按需分配预算才是正确的测试时扩展路径。

🔗 arXiv:2603.00141 · HF Papers · PaperScope

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或

06 / 15

dLLM：扩散语言模型的「Hugging Face Transformers」——训练/推理/评测统一框架

123 upvotes 扩散模型 · UC Berkeley + UIUC · 03-02

dLLM Overview — dLLM 框架三大组件：统一训练（Masked/Block Diffusion）、轻量推理抽象、标准评测接口

扩散语言模型（DLMs）展现了自回归之外的独特优势——迭代精化、灵活引导和高效解码。但现有关键组件分散在各个 ad-hoc 代码库中，复现和对比极为困难。dLLM 围绕三个核心组件统一 DLM 开发管线：

(1) 训练模块：覆盖 Masked Diffusion 和 Block Diffusion 等主流目标，扩散逻辑与模型架构解耦，新变体只需最小改动；用户可直接复现和微调 LLaDA、Dream 等开源 DLM。(2) 推理模块：轻量抽象支持即插即用的推理算法（含高效解码优化），无需改动模型实现。(3) 评测模块：跨模型统一评测接口，可复现各模型官方结果。同时发布从 BERT 编码器或自回归 LM 转换为 DLM 的最小可复现配方及对应检查点。

3 组件

训练/推理/评测统一管线

开源

github.com/ZHZisZZ/dllm

BERT→DLM

任意编码器可转换为扩散LM

dLLM 的意义在于：扩散语言模型正从各自为战走向标准化生态，就像 Hugging Face Transformers 为自回归模型做到的那样。这是 DLM 领域基础设施建设的里程碑。

编辑解读扩散语言模型需要的不只是更好的算法，更需要让所有人能复现、对比、扩展的统一框架——dLLM 补上了这块基础设施。

🔗 arXiv:2602.22661 · HF Papers · PaperScope

07 / 15

T2S-Bench & Structure-of-Thought：让 LLM 先画结构再答题，8 任务平均 +5.7%

110 upvotes 结构化推理 · Duke University + Meta · 03-05

T2S-Bench Overview — Structure-of-Thought 跨 8 个文本处理任务和 3 个模型系列的提升效果

人类处理复杂阅读任务时自然地提取关键节点、推断关系、构建结构——这种结构化过程是高质量理解的基础。Structure-of-Thought（SoT）是一种通用提示策略：指导模型在生成最终答案前，先将文本结构化为关键节点和关系，在 8 个主流文本处理任务和 3 个模型系列上一致显著提升性能。

基于此洞见，团队构建了 T2S-Bench——首个专门评测模型文本到结构能力的基准：1800 个样本，跨 6 个科学领域，32 种结构类型，覆盖 45 个主流模型。关键发现：45 个模型在多跳推理上平均准确率仅 52.1%，即使最先进模型的端到端提取节点准确率也只有 58.1%。

+5.7%

SoT 在 8 任务平均提升

+8.6%

SoT + T2S-Bench 微调后

52.1%

多跳推理平均准确率（待提升）

文本结构化能力是当前 LLM 的薄弱环节，SoT 和 T2S-Bench 提供了两条互补的提升路径：前者通过提示，后者通过微调数据。

编辑解读LLM 擅长生成文字，却不擅长在文字中构建结构——SoT 让模型先画关系图再答题，T2S-Bench 量化了这个结构化能力缺口。

🔗 arXiv:2603.03790 · HF Papers · PaperScope

08 / 15

MOOSE-Star：组合复杂度从 O(N^k) 降至 O(N+k)，RL 训练科学假说生成成为可能

83 upvotes 科学发现 · DAMO Academy + Alibaba · 03-06

MOOSE-Star Overview — MOOSE-Star：通过分解生成过程打破组合复杂度壁垒，实现科学假说生成的可训练优化

LLM 在科学发现领域正快速扩展，但直接建模 P(假说|背景) 的训练面临根本障碍：从庞大知识库中检索和组合启发信息天然具有 O(N^k) 的组合复杂度，直接训练在数学上不可行。

MOOSE-Star 提出统一框架打破这一壁垒：通过分解生成过程，最优情况下将复杂度降至 O(N+k)，同时保持可扩展推理。框架支持两种互补训练策略——基于实例的 RL 与数据驱动的知识蒸馏——以及在 RLVR 设置下的融合。配套发布 TOMATO-Star 科学发现数据集和模型检查点。

O(N+k)

复杂度从 O(N^k) 降至线性

RLVR

可验证奖励驱动假说生成

TOMATO-Star

配套科学发现训练数据集

这项工作为 AI 辅助科研开辟新方向：把生成式科学推理从纯推理阶段扩展到可系统训练优化的范式。

编辑解读科学发现的组合空间太大，直接训练不可行——MOOSE-Star 用分解技巧降到线性复杂度，RL 训练科学假说生成成为现实。

🔗 arXiv:2603.03756 · HF Papers · PaperScope

09 / 15

CUDA Agent：Agentic RL 攻入 GPU Kernel 领域，最难等级超越 Claude Opus 40%

80 upvotes 代码Agent · ByteDance Seed + Tsinghua AIR · 03-02

CUDA Agent Overview — CUDA Agent 三大组件：可扩展数据合成 + 技能增强开发环境 + RL 算法稳定训练

GPU Kernel 优化是深度学习基础设施的核心，需要深厚硬件知识。尽管 LLM 在通用编程上表现出色，现有方法在 CUDA Kernel 生成上仍无法与 torch.compile 竞争。CUDA Agent 是一个大规模 Agentic RL 系统，通过三个维度突破：

(1) 可扩展数据合成管线：生成广泛难度等级的训练问题，支持课程式 RL；(2) 技能增强 CUDA 开发环境：自动化验证和性能分析脚本提供可靠奖励信号，系统级隔离防止奖励作弊；(3) RL 算法稳定性：Actor/Critic 多阶段预热策略解决训练不稳定。

100%

Level-1/2 超越 torch.compile

92%

最难 Level-3 超越率

+40%

超越 Claude Opus 4.5/Gemini 3 Pro

CUDA Agent 在 KernelBench 取得 SOTA：Level-1/2 的 100% 超越 torch.compile，Level-3 达 92%，在最难设置上超越 Claude Opus 4.5 和 Gemini 3 Pro 约 40%。这是 LLM 首次在此专业任务上实现系统性突破。

编辑解读Agentic RL 配上正确的领域环境和奖励信号，可以在 GPU Kernel 这种极度专业的领域超越最强专有模型。

🔗 arXiv:2602.24286 · HF Papers · PaperScope

10 / 15

UniG2U-Bench：统一多模态模型的生成能力并未普遍提升理解——30+ 模型实证

80 upvotes 多模态 · MSRA + SJTU + NTU + Oxford · 03-04

UniG2U-Bench Overview — UniG2U-Bench: 30+ 统一模型在 7 大评测维度的 G2U 能力雷达图——整体弱于基础 VLM

统一多模态模型（Bagel、OmniGen、Show-o 等）宣称「理解+生成一体化」带来双向互利，但生成能力是否真的提升了理解一直缺乏系统验证。UniG2U-Bench 构建了 7 大维度、30 个子任务的评测体系，严格将统一模型与其基础 VLM 配对比较。

三个核心发现：(1) 统一模型普遍不如基础 VLM，Generate-then-Answer 推理通常比直接推理更差；(2) 仅在空间智能、视觉错觉、多轮推理子任务中出现一致提升；(3) 具有相似推理结构的任务和共享架构的模型表现出相关的行为模式。

7 × 30

评测维度 × 子任务

30+

覆盖模型数量

3 个特定域有效

空间/错觉/多轮推理

结论不是否定统一模型，而是指向更精细的训练策略需求：需要更多样化的训练数据和新范式，才能真正将生成能力转化为理解优势。

编辑解读统一模型的生成能力并未普遍提升理解，只在空间推理等特定场景有效——「大一统」仍需更精细的训练策略。

🔗 arXiv:2603.03241 · HF Papers · PaperScope

11 / 15

SWE-rebench V2：语言无关的 SWE 任务规模化采集管线，填补 RL 数据瓶颈

77 upvotes 代码Agent · 多机构 · 03-03

SWE-rebench V2 Overview — SWE-rebench V2 管线：交互式安装 Agent + LLM 集成过滤，跨语言规模化构建 RL 训练环境

SWE Agent 的 RL 训练面临关键约束：缺乏大规模、可复现执行环境且测试套件可靠的任务集合。现有基准多针对 Python，规模有限。SWE-rebench V2 提出语言无关的自动化管线，从真实世界代码仓库大规模采集可执行 SWE 任务：

(1) 交互式安装 Agent合成仓库特定安装和测试流程；(2) LLM 集成过滤（ensemble of judges）消除不健全实例；(3) 自动适配多语言仓库，不依赖特定语言生态假设。

语言无关

不限于 Python 生态

规模化

RL 训练环境自动构建

集成过滤

LLM Judge 保证任务质量

核心价值在于解决了 SWE Agent RL 训练的数据基础设施瓶颈，为多样化、大规模、跨语言的代码工程 Agent 训练提供了可扩展的数据供给。

编辑解读代码 Agent 的 RL 训练缺的不是算法，而是大规模可验证任务——SWE-rebench V2 把采集管线语言无关化。

🔗 arXiv:2602.23866 · HF Papers · PaperScope

12 / 15

Meta FAIR 多模态预训练：严格控制变量实验揭示 RAE、MoE 和视觉-语言数据协同

77 upvotes 多模态预训练 · FAIR Meta + NYU (Yann LeCun) · 03-04

Meta FAIR Multimodal — 多模态预训练设计空间系统性探索：RAE 表征、视觉-语言协同效应、世界建模涌现、MoE 缩放法则

原生多模态模型的设计空间仍然不透明——哪些架构和训练选择真正重要？来自 Meta FAIR 和 NYU（Yann LeCun 参与指导）的团队，在不依赖语言预训练的前提下，通过严格控制变量的从头预训练实验系统隔离核心因素。

四个关键发现：(1) RAE（Reconstruction Autoencoder）是最优统一视觉表征，同时擅长理解和生成；(2) 视觉和语言数据联合训练产生跨模态协同；(3) 世界建模能力从通用训练自然涌现，无需专项设计；(4) MoE 架构自然诱导模态专业化，通过 IsoFLOP 分析揭示视觉比语言需要更多数据的缩放不对称性。

RAE

理解+生成最优统一表征

MoE

调和视觉-语言缩放不对称

涌现

世界建模从通用训练自然涌现

这项工作提供了迄今最系统的多模态基础模型从头实验指导，回答了「为什么用 RAE」「为什么用 MoE」等关键设计问题。

编辑解读MoE 不仅节省计算，还能自然调和视觉与语言的数据需求不对称——Meta FAIR 用严格实验给出了多模态设计的「为什么」。

🔗 arXiv:2603.03276 · HF Papers · PaperScope

13 / 15

SkillNet：20 万+ AI 技能库——创建、评测、连接技能的统一基础设施

68 upvotes Agent · ZJU + Alibaba + Tencent + Ant + OPPO 等 · 03-06

SkillNet Overview — SkillNet 概览：将大规模 Agent 技能组织为结构化技能网络，支持技能发现、创建和组合分析

当前 AI Agent 可以灵活调用工具执行复杂任务，但长期发展受限于缺乏技能的系统性积累和迁移。没有统一的技能管理机制，Agent 频繁「重新发明轮子」——在孤立场景中重新发现解决方案，而无法复用已有策略。

SkillNet 是一个开放基础设施，将 AI 技能组织在统一本体中：支持从异构来源创建技能、建立关系连接（相似性、组合、依赖），并进行五维评测（安全性、完整性、可执行性、可维护性、成本感知）。基础设施集成了超过 200,000 个技能的仓库、交互式平台和 Python 工具包。

200K+

技能库规模

+40%

平均奖励提升（ALFWorld/WebShop/ScienceWorld）

-30%

执行步数减少

在 ALFWorld、WebShop 和 ScienceWorld 上的实验表明，SkillNet 将平均奖励提升 40%、执行步数减少 30%。将技能从一次性工具升级为可演化、可组合的资产，为 Agent 从「临时经验」走向「持久掌握」奠定基础。

编辑解读Agent 最浪费算力的行为是反复重新发现已知策略——SkillNet 把 20 万个技能组织成可检索、可组合的网络，让经验真正积累。

🔗 arXiv:2603.04448 · HF Papers · PaperScope

14 / 15

RubricBench：能打分的模型不一定能出好题——评分标准对齐基准

53 upvotes 评测 · CityU + Tencent + MBZUAI + McGill-Mila · 03-03

RubricBench Overview — RubricBench：系统评测模型生成评分标准（Rubric）与人工制定标准之间的对齐程度

LLM 对齐越来越依赖基于 Rubric（评分标准）的评估来减轻表面偏见，但模型生成的 Rubric 与人类标准的对齐程度一直缺乏统一基准。RubricBench 填补这一空白：将「打出正确分数」与「生成对人类有意义的评分框架」这两个不同能力区分开来。

基准覆盖写作质量、代码正确性、推理链等多个维度的复杂生成任务，测试模型能否生成与人类评估者一致的评分标准。

Rubric 对齐

模型标准 vs 人类标准

多维度

写作/代码/推理等复杂任务

区分能力

评分准确 ≠ Rubric 质量

随着 AI 评测越来越依赖 LLM-as-Judge，理解模型生成评估框架的质量与局限性变得尤为重要——对 RLHF 数据质量和 AI 对齐研究都有直接影响。

编辑解读能打出正确分数的模型不一定能写出好的评分标准——RubricBench 拆开了这两种能力，揭示了自动评测中被忽视的对齐差距。

🔗 arXiv:2603.01562 · HF Papers · PaperScope

15 / 15

BeyondSWE：代码 Agent 走出单仓库 Bug 修复，500 个跨域任务暴露系统性能力缺口

52 upvotes 代码Agent · 人民大学 + AweAI · 03-04

BeyondSWE Overview — BeyondSWE 沿解决范围与知识范围两轴扩展 SWE 评测——CrossRepo/DomainFix/DepMigrate/Doc2Repo

SWE-bench 的任务本质局限于单仓库内的函数级 Bug 修复。BeyondSWE 沿解决范围和知识范围两轴扩展，500 个实例覆盖四类设置：CrossRepo（跨仓库推理）、DomainFix（需领域专业知识的修复）、DepMigrate（依赖迁移）、Doc2Repo（从文档生成整库）。

500 实例

4 类真实工程任务

< 45%

前沿模型成功率上限

无模型一致表现良好

跨类型能力差距显著

即使最强前沿模型，成功率也低于 45%，且没有任何模型在所有任务类型上一致表现良好。搜索增强框架 SearchSWE 在某些任务上甚至降低性能。真实工程场景的多样性远超当前基准覆盖范围。

编辑解读代码 Agent 走出单仓库 Bug 修复舒适区，成功率骤降至 45% 以下——真实工程需要的不只是修 Bug。

🔗 arXiv:2603.03194 · HF Papers · PaperScope

周度趋势

3月第二周值得关注的三个信号编辑观点

RL 正在从「对齐对话」向「专业工程」全面扩展
CUDA Agent 攻入 GPU Kernel 优化（超越 torch.compile）、MOOSE-Star 把 RL 推向科学假说生成（O(N^k)→O(N+k)）、HACRL 让异构模型在训练阶段共享推理轨迹互学——RLVR 范式正在证明它在专业工程领域的泛化能力。关键洞察：专业 RL 的瓶颈不在算法，而在领域环境和奖励信号的设计质量。
「统一」叙事面临实证检验的严肃挑战
UniG2U-Bench 对 30+ 统一多模态模型的系统评测显示生成能力并未普遍提升理解，BeyondSWE 暴露代码 Agent 在跨仓库场景下成功率不足 45%。但同一周 Utonia 用单编码器跨五域点云取得跨域涌现效应——矛盾之处在于：统一的价值取决于能力是否真正迁移，而非简单叠加。
「工具性」研究正获得社区高度认可
dLLM（扩散LM统一框架，123票）、SWE-rebench V2（语言无关SWE任务采集，77票）、SkillNet（20万AI技能基础设施，68票）分别在不同子领域填补基础设施空白。这些不追求 SOTA 的框架性工作获得的票数甚至超过许多方法论文——社区正在为「可复用、可组合」的基础设施投票。

参考链接

[1] Utonia — arXiv:2603.03283 · HF Papers
[2] HACRL — arXiv:2603.02604 · HF Papers
[3] Helios — arXiv:2603.04379 · HF Papers
[4] OmniLottie — arXiv:2603.02138 · HF Papers
[5] ADE-CoT — arXiv:2603.00141 · HF Papers
[6] dLLM — arXiv:2602.22661 · HF Papers
[7] T2S-Bench & SoT — arXiv:2603.03790 · HF Papers
[8] MOOSE-Star — arXiv:2603.03756 · HF Papers
[9] CUDA Agent — arXiv:2602.24286 · HF Papers
[10] UniG2U-Bench — arXiv:2603.03241 · HF Papers
[11] SWE-rebench V2 — arXiv:2602.23866 · HF Papers
[12] Beyond Language Modeling (Meta FAIR) — arXiv:2603.03276 · HF Papers
[13] SkillNet — arXiv:2603.04448 · HF Papers
[14] RubricBench — arXiv:2603.01562 · HF Papers
[15] BeyondSWE — arXiv:2603.03194 · HF Papers

感谢你读完这份周报。本周 151 篇论文中，RL 的专业化扩展势不可挡——从 GPU Kernel 到科学假说到异构 Agent 协同；「统一」叙事在实证检验中显现裂缝，但也孕育着更精细的解法；基础设施建设正成为社区投票的新宠。

下周重点关注：(1) Helios 开源后视频生成实时化路线的竞争格局；(2) SkillNet 的 20 万技能库能否被其他 Agent 框架采用；(3) 异构 Agent 协同训练范式（HACRL）是否引发跟进研究潮。

如果这份周报对你有帮助，欢迎顺手点赞、在看、转发三连，让更多关注 AI 研究的朋友看到。想第一时间收到下周周报，记得给公众号加个星标。

HF论文周报 | 3月第二周：通用点云编码器登顶、异构Agent协同RL突破、实时长视频生成冲击速度天花板