HF 论文周报 · Weekly Digest

HF论文周报 | 3月第二周:通用点云编码器登顶、异构Agent协同RL突破、实时长视频生成冲击速度天花板

2026.03.02 — 03.08 · 151 篇论文 · 15 篇深度解读

2026.03.0203.08
151 篇论文,15 篇深度解读
Top 1: 153 votes
PaperScope Editorial

速览目录 · Top 30 本周热榜

# 论文 领域 日期 Votes 一句话
1Utonia3D视觉03-04153单编码器横跨五大点云域,跨域涌现提升机器人操作8.3%
2HACRL多智能体RL03-05151异构Agent共享验证轨迹互学,训练协同推理独立
3Helios视频生成03-0514614B自回归扩散模型单H100实时19.5 FPS长视频
4OmniLottie矢量动画03-03134参数化Lottie Token自回归生成,多模态驱动矢量动画
5ADE-CoT图像编辑03-03132难度感知预算分配+早期剪枝,图像编辑CoT 2倍加速
6dLLM扩散LM03-02123统一扩散语言模型框架,支持LLaDA/Dream复现与微调
7T2S-Bench & SoT结构化推理03-05110结构化思维提示+1.8K样本评测,8任务平均+5.7%
8MOOSE-Star科学发现03-0683打破O(N^k)组合壁垒,RL驱动科学假说生成训练
9CUDA Agent代码Agent03-0280Agentic RL训练CUDA专家,100%超越torch.compile
10UniG2U-Bench多模态03-048030+模型评测发现统一模型普遍弱于基础VLM
11SWE-rebench V2代码Agent03-0377语言无关SWE任务采集管线,规模化构建RL训练环境
12Meta FAIR 多模态多模态预训练03-0477从头预训练揭示RAE/数据协同/MoE四大设计准则
13SkillNetAgent03-066820万+技能库,统一创建/评测/连接AI技能基础设施
14RubricBench评测03-0353模型生成评分标准与人类标准的对齐程度评测基准
15BeyondSWE代码Agent03-0452500个跨仓库任务暴露代码Agent能力缺口,<45%
16SpatialReward图像生成03-0250SpatialReward 数据集+奖励模型强化文生图空间关系
17DARER生态Agent03-0645分布感知检索嵌入对接LLM与R统计生态
18CHIMERA推理数据03-03449K紧凑合成推理数据,4B模型追平235B
19OpenAutoNLUNLU03-0344开源NLU自动机器学习库
20Qwen3-Coder-Next代码模型03-044380B总参/3B激活MoE代码Agent,逼近十倍体量模型
21MMR-Life多模态03-0342真实场景多模态记忆检索基准
22RITranslation多语言03-0239自动化基准翻译框架+T-RANK多轮竞争排序
23Mode-Mean Video视频生成03-0238模式求解+均值求解解耦局部保真与长程一致性
24AgentVista多模态Agent03-0636超高难度多模态Agent评测基准
25VGGT-Det3D检测03-0334挖掘VGGT内部先验的无传感器几何3D检测
26CMI-RewardBench音乐03-0332音乐奖励模型的组合与感知指令评测
27Mix-GRM奖励模型03-0432广度+深度双CoT让生成式奖励模型提升8.2%
28RoboPocket机器人03-0630手机即时改善机器人策略
29MemSifterLLM记忆03-0527结果驱动代理推理卸载LLM记忆检索
30Kling-MotionControl视频生成03-0426分治策略统一DiT框架实现全身角色动画精细可控

本周(3月2日—8日)HuggingFace 共收录 151 篇论文,三条研究主线格外清晰。

第一条主线:「一个模型通吃」的基础模型路线持续推进与被质疑。Utonia(153票)用单个 Point Transformer 横跨遥感/LiDAR/室内/物体/视频五大点云域,验证了跨域联合训练的涌现效应;然而 UniG2U-Bench(80票)对 30+ 统一多模态模型的严格评测表明,生成能力并未普遍提升理解——「大一统」的承诺需要更精细的工程来兑现。

第二条主线:强化学习从通用推理向专业工程领域全面渗透。HACRL(151票)让异构Agent在训练阶段共享验证轨迹互相学习,推理时各自独立;CUDA Agent(80票)把 Agentic RL 推入 GPU Kernel 优化领域,在最难设置上超越 Claude Opus 4.5 约 40%;MOOSE-Star(83票)将 RL 引入科学假说生成,巧妙地把 O(N^k) 组合复杂度降至 O(N+k)。

第三条主线:实时生成与基础设施框架化齐头并进。Helios(146票)实现 14B 模型单 H100 实时 19.5 FPS 长视频生成;dLLM(123票)为扩散语言模型建立统一开发框架;SkillNet(68票)构建了超 20 万 AI 技能的可组合基础设施——各子领域正从探索期走向工程化。

周度 Insight:本周论文的核心矛盾在于「统一」叙事的理想与现实。一方面 Utonia 证明五域点云的统一编码器确实能产生跨域涌现;另一方面 UniG2U-Bench 和 BeyondSWE 揭示统一模型在多模态理解和跨仓库代码工程上的能力缺口。这种张力提示:统一不是目的,关键是在统一框架中实现能力的真正迁移而非简单叠加。
01 / 15

Utonia:一个编码器统一五域点云,跨域涌现推动机器人操作提升 8.3%

153 upvotes 3D视觉 · HKU + CUHK + Xiaomi · 03-04
Utonia Overview
Utonia 特征 PCA 可视化:城市级遥感、室外 LiDAR、室内重建、物体扫描四域在同一表征空间内保持语义一致性

点云数据来自遥感卫星、自动驾驶 LiDAR、室内 RGB-D、CAD 模型等截然不同的传感器,尺度、密度、采样模式差异极端。此前的自监督点云模型(如 Sonata、Concerto)只能在单一或少数域内训练。Utonia 用单一 Point Transformer 编码器,首次同时覆盖遥感、室外 LiDAR、室内 RGB-D 序列、物体 CAD 模型、视频点云五大域进行联合自监督预训练。

核心技术创新在于自适应颜色/法向量(C./N.)机制:不同域的输入模态不一致(有些有颜色无法向量,有些相反),Utonia 自动降级缺失模态,避免模型学到域特异性捷径,从而保留跨域可迁移的几何语义特征。预训练采用 masked autoencoding 范式。

5 域
遥感/LiDAR/室内/物体/视频联合
+2.1 mIoU
ScanNet 语义分割超单域预训练
+8.3%
VLA 机器人操作成功率提升

实验验证了联合训练的跨域涌现效应:ScanNet 语义分割超越单域预训练 2.1 mIoU,nuScenes 检测提升 1.8 NDS。更关键的是 Utonia 表征在下游任务的迁移——接入 VLA 后机器人操作成功率提升 8.3%,接入 VLM 进行空间推理同样有增益。通用点云表征不仅惠及感知,也能提升具身 AI 与多模态推理。

编辑解读五个截然不同的点云域共享一个编码器后,涌现出比单独训练更强的表征——稀疏 3D 基础模型的路已经通了。
02 / 15

HACRL:训练时协同、推理时独立——异构Agent共享轨迹互学的新范式

151 upvotes 多智能体RL · BUPT + ByteDance + Tsinghua + PKU · 03-05
HACRL Overview
HACRL 对比多智能体 RL 与知识蒸馏:训练时协同优化、推理时独立执行的双向互学新范式

RLVR(可验证奖励强化学习)已成为强化 LLM 推理的核心方法,但面临昂贵的在线采样瓶颈:每个 Agent 自己生成轨迹、做验证,多个 Agent 面对同一任务时大量重复采样。HACRL 提出了一个全新范式:让不同结构的 Agent(参数量、架构或预训练数据各异)在训练阶段共享经过验证的推理轨迹,互相从对方的成功和失败中学习。

关键算法 HACPO 解决异构模型间能力差异和策略分布偏移的技术挑战,引入四项机制:无偏优势估计、分布加权、截断和归一化,并提供理论保证。与知识蒸馏的根本区别在于 HACRL 是双向互学而非单向师生关系——小模型能从大模型学到推理策略,大模型也能从小模型的成功路径中获得启发。

+3.3%
平均超越 GSPO
1/2 成本
仅用一半 rollout 采样成本
双向互学
非师生蒸馏,异构Agent互相受益

在多种异构模型组合和推理基准上,HACPO 让所有参与 Agent 都获得提升,平均超越 GSPO 3.3%,且采样成本减半。推理时各模型完全独立部署,无需协同开销。

编辑解读训练时共享彼此的推理轨迹互学,推理时各自独立运行——HACRL 把多 Agent 系统的协作成本前置到训练阶段,零推理开销。
03 / 15

Helios:14B 参数单 H100 实时 19.5 FPS——大模型长视频生成的速度新标杆

146 upvotes 视频生成 · PKU + ByteDance + Canva · 03-05
Helios Overview
各视频生成模型单 H100 端到端吞吐量(FPS)对比:Helios 14B 大幅领先同等规模模型

视频生成领域的核心矛盾:更大参数量带来更好质量,但推理速度和长视频稳定性严重不足。现有实时方案通常用 1.3B 小模型,复杂运动表现有限;Krea-RealTime-14B 虽扩大规模但单 H100 仅 6.7 FPS。Helios 在三个关键维度同时实现突破:

(1) 抗漂移训练:分析长视频漂移的失败模式,提出在训练时显式模拟漂移现象,从根源消除重复运动,无需 Self-Forcing 或关键帧采样等启发式方法;(2) 实时推理:通过大幅压缩历史上下文和噪声上下文、减少采样步数,使 14B 模型的计算成本接近 1.3B 模型;(3) 训练效率:基础设施级优化让 80GB GPU 内存可容纳多个 14B 模型实例。

19.5 FPS
单 H100 端到端实时吞吐
14B
自回归扩散模型参数量
分钟级
无漂移长视频连续生成

在短视频和长视频基准上,Helios 始终优于蒸馏模型,同时接近基础大模型的生成质量。团队计划开源代码、基础模型和蒸馏模型权重。

编辑解读14B 参数、19.5 FPS、单张 H100——Helios 证明实时长视频生成不需要以质量换速度。
04 / 15

OmniLottie:将矢量动画压缩为语义 Token,多模态指令驱动 Lottie 生成

134 upvotes 矢量动画 · Fudan + StepFun + HKU · 03-03
OmniLottie Overview
OmniLottie 支持文本、图像、视频多模态指令驱动生成跨平台兼容的 Lottie 矢量动画

Lottie 是一种广泛使用的矢量动画格式,以 JSON 存储所有形状、效果和运动参数,具备跨平台兼容和轻量可编辑的优势。但直接让 LLM 生成 Lottie JSON 有本质困难:原始 JSON 充斥大量不变的结构性元数据,语义信息密度极低,导致生成成功率差且难以控制动画内容。

OmniLottie 的核心贡献是设计了专用 Lottie Tokenizer,把 JSON 文件转换为形状、动画函数和控制参数的结构化指令序列——大幅压缩序列长度同时保留完整语义。基于此 Tokenizer,在预训练 VLM 上端到端微调,支持文本→Lottie、图文→Lottie、视频→Lottie 三类任务。配套发布的 MMLottie-2M 数据集包含 200 万条专业设计矢量动画及文本/视觉标注。

MMLottie-2M
200万专业矢量动画数据集
3 模态
文本/图文/视频→Lottie
端到端
VLM 微调,无需规则后处理

实验验证 OmniLottie 生成的矢量动画语义一致、动效自然、格式合规,成功率显著优于直接输出 JSON 的基线。这项工作填补了生成式 AI 在轻量级矢量媒介上的空白。

编辑解读把 Lottie JSON 压缩成语义 Token 序列,让 VLM 像理解图文一样理解和生成动画——矢量创意内容自动化的新突破口。
05 / 15

ADE-CoT:图像编辑不是开放任务——难度感知自适应 CoT 实现 2× 加速

132 upvotes 图像编辑 · IIE-CAS + Alibaba AMAP · 03-03
ADE-CoT Overview
T2I 生成(开放任务)vs 图像编辑(目标导向):ADE-CoT 针对后者的特性做自适应预算分配

Image-CoT 通过生成多个候选方案再选优来提升图像质量,已在文生图任务上取得显著效果。但直接迁移到图像编辑面临三个问题:(1) 简单编辑上固定采样预算造成计算浪费;(2) 通用 MLLM 打分在早期阶段不可靠;(3) 目标导向任务中大量采样产生冗余正确结果。

ADE-CoT(自适应编辑 CoT)提出三项针对性策略:① 难度感知资源分配——根据预估编辑难度动态调整采样预算;② 编辑专用早期验证——用区域定位和字幕一致性评估替代通用打分做候选筛选;③ 深度优先机会性停止——由实例级验证器引导,一旦找到意图对齐的结果即终止。三者联合适用于 Step1X-Edit、BAGEL、FLUX.1 Kontext 等前沿编辑模型。

2× 加速
相同预算下性能更优
3 基准
Step1X/BAGEL/FLUX 通用
动态预算
难度感知采样分配

在三个基准上,ADE-CoT 在可比采样预算下 超越 Best-of-N 同时实现 2× 以上加速,为图像编辑的测试时计算扩展提供了高效方案。

编辑解读图像编辑不是开放创作,固定 32 个样本对简单编辑是纯粹浪费——按需分配预算才是正确的测试时扩展路径。

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录
06 / 15

dLLM:扩散语言模型的「Hugging Face Transformers」——训练/推理/评测统一框架

123 upvotes 扩散模型 · UC Berkeley + UIUC · 03-02
dLLM Overview
dLLM 框架三大组件:统一训练(Masked/Block Diffusion)、轻量推理抽象、标准评测接口

扩散语言模型(DLMs)展现了自回归之外的独特优势——迭代精化、灵活引导和高效解码。但现有关键组件分散在各个 ad-hoc 代码库中,复现和对比极为困难。dLLM 围绕三个核心组件统一 DLM 开发管线:

(1) 训练模块:覆盖 Masked Diffusion 和 Block Diffusion 等主流目标,扩散逻辑与模型架构解耦,新变体只需最小改动;用户可直接复现和微调 LLaDA、Dream 等开源 DLM。(2) 推理模块:轻量抽象支持即插即用的推理算法(含高效解码优化),无需改动模型实现。(3) 评测模块:跨模型统一评测接口,可复现各模型官方结果。同时发布从 BERT 编码器或自回归 LM 转换为 DLM 的最小可复现配方及对应检查点。

3 组件
训练/推理/评测统一管线
开源
github.com/ZHZisZZ/dllm
BERT→DLM
任意编码器可转换为扩散LM

dLLM 的意义在于:扩散语言模型正从各自为战走向标准化生态,就像 Hugging Face Transformers 为自回归模型做到的那样。这是 DLM 领域基础设施建设的里程碑。

编辑解读扩散语言模型需要的不只是更好的算法,更需要让所有人能复现、对比、扩展的统一框架——dLLM 补上了这块基础设施。
07 / 15

T2S-Bench & Structure-of-Thought:让 LLM 先画结构再答题,8 任务平均 +5.7%

110 upvotes 结构化推理 · Duke University + Meta · 03-05
T2S-Bench Overview
Structure-of-Thought 跨 8 个文本处理任务和 3 个模型系列的提升效果

人类处理复杂阅读任务时自然地提取关键节点、推断关系、构建结构——这种结构化过程是高质量理解的基础。Structure-of-Thought(SoT)是一种通用提示策略:指导模型在生成最终答案前,先将文本结构化为关键节点和关系,在 8 个主流文本处理任务和 3 个模型系列上一致显著提升性能

基于此洞见,团队构建了 T2S-Bench——首个专门评测模型文本到结构能力的基准:1800 个样本,跨 6 个科学领域,32 种结构类型,覆盖 45 个主流模型。关键发现:45 个模型在多跳推理上平均准确率仅 52.1%,即使最先进模型的端到端提取节点准确率也只有 58.1%。

+5.7%
SoT 在 8 任务平均提升
+8.6%
SoT + T2S-Bench 微调后
52.1%
多跳推理平均准确率(待提升)

文本结构化能力是当前 LLM 的薄弱环节,SoT 和 T2S-Bench 提供了两条互补的提升路径:前者通过提示,后者通过微调数据。

编辑解读LLM 擅长生成文字,却不擅长在文字中构建结构——SoT 让模型先画关系图再答题,T2S-Bench 量化了这个结构化能力缺口。
08 / 15

MOOSE-Star:组合复杂度从 O(N^k) 降至 O(N+k),RL 训练科学假说生成成为可能

83 upvotes 科学发现 · DAMO Academy + Alibaba · 03-06
MOOSE-Star Overview
MOOSE-Star:通过分解生成过程打破组合复杂度壁垒,实现科学假说生成的可训练优化

LLM 在科学发现领域正快速扩展,但直接建模 P(假说|背景) 的训练面临根本障碍:从庞大知识库中检索和组合启发信息天然具有 O(N^k) 的组合复杂度,直接训练在数学上不可行。

MOOSE-Star 提出统一框架打破这一壁垒:通过分解生成过程,最优情况下将复杂度降至 O(N+k),同时保持可扩展推理。框架支持两种互补训练策略——基于实例的 RL 与数据驱动的知识蒸馏——以及在 RLVR 设置下的融合。配套发布 TOMATO-Star 科学发现数据集和模型检查点。

O(N+k)
复杂度从 O(N^k) 降至线性
RLVR
可验证奖励驱动假说生成
TOMATO-Star
配套科学发现训练数据集

这项工作为 AI 辅助科研开辟新方向:把生成式科学推理从纯推理阶段扩展到可系统训练优化的范式

编辑解读科学发现的组合空间太大,直接训练不可行——MOOSE-Star 用分解技巧降到线性复杂度,RL 训练科学假说生成成为现实。
09 / 15

CUDA Agent:Agentic RL 攻入 GPU Kernel 领域,最难等级超越 Claude Opus 40%

80 upvotes 代码Agent · ByteDance Seed + Tsinghua AIR · 03-02
CUDA Agent Overview
CUDA Agent 三大组件:可扩展数据合成 + 技能增强开发环境 + RL 算法稳定训练

GPU Kernel 优化是深度学习基础设施的核心,需要深厚硬件知识。尽管 LLM 在通用编程上表现出色,现有方法在 CUDA Kernel 生成上仍无法与 torch.compile 竞争。CUDA Agent 是一个大规模 Agentic RL 系统,通过三个维度突破:

(1) 可扩展数据合成管线:生成广泛难度等级的训练问题,支持课程式 RL;(2) 技能增强 CUDA 开发环境:自动化验证和性能分析脚本提供可靠奖励信号,系统级隔离防止奖励作弊;(3) RL 算法稳定性:Actor/Critic 多阶段预热策略解决训练不稳定。

100%
Level-1/2 超越 torch.compile
92%
最难 Level-3 超越率
+40%
超越 Claude Opus 4.5/Gemini 3 Pro

CUDA Agent 在 KernelBench 取得 SOTA:Level-1/2 的 100% 超越 torch.compile,Level-3 达 92%,在最难设置上超越 Claude Opus 4.5 和 Gemini 3 Pro 约 40%。这是 LLM 首次在此专业任务上实现系统性突破。

编辑解读Agentic RL 配上正确的领域环境和奖励信号,可以在 GPU Kernel 这种极度专业的领域超越最强专有模型。
10 / 15

UniG2U-Bench:统一多模态模型的生成能力并未普遍提升理解——30+ 模型实证

80 upvotes 多模态 · MSRA + SJTU + NTU + Oxford · 03-04
UniG2U-Bench Overview
UniG2U-Bench: 30+ 统一模型在 7 大评测维度的 G2U 能力雷达图——整体弱于基础 VLM

统一多模态模型(Bagel、OmniGen、Show-o 等)宣称「理解+生成一体化」带来双向互利,但生成能力是否真的提升了理解一直缺乏系统验证。UniG2U-Bench 构建了 7 大维度、30 个子任务的评测体系,严格将统一模型与其基础 VLM 配对比较。

三个核心发现:(1) 统一模型普遍不如基础 VLM,Generate-then-Answer 推理通常比直接推理更差;(2) 仅在空间智能、视觉错觉、多轮推理子任务中出现一致提升;(3) 具有相似推理结构的任务和共享架构的模型表现出相关的行为模式

7 × 30
评测维度 × 子任务
30+
覆盖模型数量
3 个特定域有效
空间/错觉/多轮推理

结论不是否定统一模型,而是指向更精细的训练策略需求:需要更多样化的训练数据和新范式,才能真正将生成能力转化为理解优势。

编辑解读统一模型的生成能力并未普遍提升理解,只在空间推理等特定场景有效——「大一统」仍需更精细的训练策略。
11 / 15

SWE-rebench V2:语言无关的 SWE 任务规模化采集管线,填补 RL 数据瓶颈

77 upvotes 代码Agent · 多机构 · 03-03
SWE-rebench V2 Overview
SWE-rebench V2 管线:交互式安装 Agent + LLM 集成过滤,跨语言规模化构建 RL 训练环境

SWE Agent 的 RL 训练面临关键约束:缺乏大规模、可复现执行环境且测试套件可靠的任务集合。现有基准多针对 Python,规模有限。SWE-rebench V2 提出语言无关的自动化管线,从真实世界代码仓库大规模采集可执行 SWE 任务:

(1) 交互式安装 Agent合成仓库特定安装和测试流程;(2) LLM 集成过滤(ensemble of judges)消除不健全实例;(3) 自动适配多语言仓库,不依赖特定语言生态假设。

语言无关
不限于 Python 生态
规模化
RL 训练环境自动构建
集成过滤
LLM Judge 保证任务质量

核心价值在于解决了 SWE Agent RL 训练的数据基础设施瓶颈,为多样化、大规模、跨语言的代码工程 Agent 训练提供了可扩展的数据供给。

编辑解读代码 Agent 的 RL 训练缺的不是算法,而是大规模可验证任务——SWE-rebench V2 把采集管线语言无关化。
12 / 15

Meta FAIR 多模态预训练:严格控制变量实验揭示 RAE、MoE 和视觉-语言数据协同

77 upvotes 多模态预训练 · FAIR Meta + NYU (Yann LeCun) · 03-04
Meta FAIR Multimodal
多模态预训练设计空间系统性探索:RAE 表征、视觉-语言协同效应、世界建模涌现、MoE 缩放法则

原生多模态模型的设计空间仍然不透明——哪些架构和训练选择真正重要?来自 Meta FAIR 和 NYU(Yann LeCun 参与指导)的团队,在不依赖语言预训练的前提下,通过严格控制变量的从头预训练实验系统隔离核心因素。

四个关键发现:(1) RAE(Reconstruction Autoencoder)是最优统一视觉表征,同时擅长理解和生成;(2) 视觉和语言数据联合训练产生跨模态协同;(3) 世界建模能力从通用训练自然涌现,无需专项设计;(4) MoE 架构自然诱导模态专业化,通过 IsoFLOP 分析揭示视觉比语言需要更多数据的缩放不对称性。

RAE
理解+生成最优统一表征
MoE
调和视觉-语言缩放不对称
涌现
世界建模从通用训练自然涌现

这项工作提供了迄今最系统的多模态基础模型从头实验指导,回答了「为什么用 RAE」「为什么用 MoE」等关键设计问题。

编辑解读MoE 不仅节省计算,还能自然调和视觉与语言的数据需求不对称——Meta FAIR 用严格实验给出了多模态设计的「为什么」。
13 / 15

SkillNet:20 万+ AI 技能库——创建、评测、连接技能的统一基础设施

68 upvotes Agent · ZJU + Alibaba + Tencent + Ant + OPPO 等 · 03-06
SkillNet Overview
SkillNet 概览:将大规模 Agent 技能组织为结构化技能网络,支持技能发现、创建和组合分析

当前 AI Agent 可以灵活调用工具执行复杂任务,但长期发展受限于缺乏技能的系统性积累和迁移。没有统一的技能管理机制,Agent 频繁「重新发明轮子」——在孤立场景中重新发现解决方案,而无法复用已有策略。

SkillNet 是一个开放基础设施,将 AI 技能组织在统一本体中:支持从异构来源创建技能、建立关系连接(相似性、组合、依赖),并进行五维评测(安全性、完整性、可执行性、可维护性、成本感知)。基础设施集成了超过 200,000 个技能的仓库、交互式平台和 Python 工具包。

200K+
技能库规模
+40%
平均奖励提升(ALFWorld/WebShop/ScienceWorld)
-30%
执行步数减少

在 ALFWorld、WebShop 和 ScienceWorld 上的实验表明,SkillNet 将平均奖励提升 40%、执行步数减少 30%。将技能从一次性工具升级为可演化、可组合的资产,为 Agent 从「临时经验」走向「持久掌握」奠定基础。

编辑解读Agent 最浪费算力的行为是反复重新发现已知策略——SkillNet 把 20 万个技能组织成可检索、可组合的网络,让经验真正积累。
14 / 15

RubricBench:能打分的模型不一定能出好题——评分标准对齐基准

53 upvotes 评测 · CityU + Tencent + MBZUAI + McGill-Mila · 03-03
RubricBench Overview
RubricBench:系统评测模型生成评分标准(Rubric)与人工制定标准之间的对齐程度

LLM 对齐越来越依赖基于 Rubric(评分标准)的评估来减轻表面偏见,但模型生成的 Rubric 与人类标准的对齐程度一直缺乏统一基准。RubricBench 填补这一空白:将「打出正确分数」与「生成对人类有意义的评分框架」这两个不同能力区分开来。

基准覆盖写作质量、代码正确性、推理链等多个维度的复杂生成任务,测试模型能否生成与人类评估者一致的评分标准。

Rubric 对齐
模型标准 vs 人类标准
多维度
写作/代码/推理等复杂任务
区分能力
评分准确 ≠ Rubric 质量

随着 AI 评测越来越依赖 LLM-as-Judge,理解模型生成评估框架的质量与局限性变得尤为重要——对 RLHF 数据质量和 AI 对齐研究都有直接影响。

编辑解读能打出正确分数的模型不一定能写出好的评分标准——RubricBench 拆开了这两种能力,揭示了自动评测中被忽视的对齐差距。
15 / 15

BeyondSWE:代码 Agent 走出单仓库 Bug 修复,500 个跨域任务暴露系统性能力缺口

52 upvotes 代码Agent · 人民大学 + AweAI · 03-04
BeyondSWE Overview
BeyondSWE 沿解决范围与知识范围两轴扩展 SWE 评测——CrossRepo/DomainFix/DepMigrate/Doc2Repo

SWE-bench 的任务本质局限于单仓库内的函数级 Bug 修复。BeyondSWE 沿解决范围和知识范围两轴扩展,500 个实例覆盖四类设置:CrossRepo(跨仓库推理)、DomainFix(需领域专业知识的修复)、DepMigrate(依赖迁移)、Doc2Repo(从文档生成整库)。

500 实例
4 类真实工程任务
< 45%
前沿模型成功率上限
无模型一致表现良好
跨类型能力差距显著

即使最强前沿模型,成功率也低于 45%,且没有任何模型在所有任务类型上一致表现良好。搜索增强框架 SearchSWE 在某些任务上甚至降低性能。真实工程场景的多样性远超当前基准覆盖范围。

编辑解读代码 Agent 走出单仓库 Bug 修复舒适区,成功率骤降至 45% 以下——真实工程需要的不只是修 Bug。
周度趋势

3月第二周值得关注的三个信号 编辑观点

参考链接

感谢你读完这份周报。本周 151 篇论文中,RL 的专业化扩展势不可挡——从 GPU Kernel 到科学假说到异构 Agent 协同;「统一」叙事在实证检验中显现裂缝,但也孕育着更精细的解法;基础设施建设正成为社区投票的新宠。

下周重点关注:(1) Helios 开源后视频生成实时化路线的竞争格局;(2) SkillNet 的 20 万技能库能否被其他 Agent 框架采用;(3) 异构 Agent 协同训练范式(HACRL)是否引发跟进研究潮。

如果这份周报对你有帮助,欢迎顺手点赞、在看、转发三连,让更多关注 AI 研究的朋友看到。想第一时间收到下周周报,记得给公众号加个星标

© 2026 AI Insight · 机智流 · 本文由 Intern-S1-Pro 等 AI 生成,可能有误