HF 论文周报 · Weekly Digest

HF论文周报 | 3月第一周:异构Agent协同RL与通用点云编码器领跑,扩散语言模型框架化

2026.03.01 — 03.07 · 151 篇论文 · 15 篇深度解读

2026.03.0103.07
151 篇论文,15 篇深度解读
Top 1: 138 votes
PaperScope Editorial

速览目录 · Top 30 本周热榜

# 论文 领域 日期 Votes 一句话
1Utonia3D视觉03-04138一个编码器统一五大点云域,跨域涌现提升机器人操作
2HACRL多智能体RL03-05136异构Agent共享验证轨迹互学习,3.3% 超越 GSPO
3OmniLottie矢量动画03-03131Lottie Token自回归生成,多模态指令驱动矢量动画
4ADE-CoT图像编辑03-03130难度感知预算分配+早期剪枝,图像编辑CoT 2倍加速
5Helios视频生成03-0512714B自回归扩散模型,单H100实时19.5 FPS长视频
6dLLM扩散LM03-02115统一扩散语言模型框架,支持LLaDA/Dream复现与微调
7T2S-Bench & SoT结构化推理03-05105结构化思维提示+1.8K样本评测,8任务平均+5.7%
8UniG2U-Bench多模态03-047930+模型评测发现统一模型普遍弱于基础VLM
9CUDA Agent代码Agent03-0275Agentic RL训练CUDA专家,100%超越torch.compile
10SWE-rebench V2代码Agent03-0375语言无关SWE任务流水线,规模化构建RL训练环境
11MOOSE-Star科学发现03-0674打破组合复杂度壁垒,RL驱动科学假说生成训练
12Meta FAIR 多模态多模态预训练03-0469从头预训练揭示RAE/数据协同/MoE四大设计准则
13RubricBench评测03-0351模型生成评分标准与人类标准的对齐程度评测基准
14BeyondSWE代码Agent03-0450500个跨仓库任务暴露代码Agent能力缺口,<45%
15空间理解+奖励图像生成03-0247SpatialReward 数据集+奖励模型强化文生图空间关系
16SkillNetAgent03-0644创建/评测/连接AI技能的统一框架
17OpenAutoNLUNLU03-0343开源NLU自动机器学习库
18MMR-Life多模态03-0342真实场景多模态记忆检索基准
19CHIMERA推理数据03-03429K紧凑合成推理数据,4B模型追平235B
20DARER生态Agent03-0641分布感知检索嵌入对接LLM与R统计生态
21RITranslation多语言03-0239自动化基准翻译框架+T-RANK多轮竞争排序
22Mode-Mean Video视频生成03-0236模式求解+均值求解解耦局部保真与长程一致性
23Qwen3-Coder-Next代码模型03-043680B总参/3B激活MoE代码Agent,逼近十倍体量模型
24VGGT-Det3D检测03-0333挖掘VGGT内部先验的无传感器几何3D检测
25CMI-RewardBench音乐03-0332音乐奖励模型的组合与感知指令评测
26Mix-GRM奖励模型03-0432广度+深度双CoT让生成式奖励模型提升8.2%
27AgentVista多模态Agent03-0630超高难度多模态Agent评测基准
28RoboPocket机器人03-0628手机即时改善机器人策略
29Kling-MotionControl视频生成03-0424分治策略统一DiT框架实现全身角色动画精细可控
30Proact-VL视频LLM03-0524主动式实时视频LLM,支持AI伴侣场景

本周(3月1日—7日)HuggingFace 共收录 151 篇论文,热度最高的研究方向呈现三条清晰主线。

第一条主线:通用表征与统一架构持续深化。Utonia(138票)用单个 Point Transformer 跨越遥感/LiDAR/室内/物体/视频五大点云域,是稀疏3D数据基础模型的关键一步;Meta FAIR 的多模态预训练探索(69票)系统隔离各设计因素,揭示 RAE 表征和 MoE 架构是多模态基础模型的关键拼图;UniG2U-Bench(79票)则给出了「统一模型的生成能力并未普遍提升理解」的严肃实证。

第二条主线:强化学习从对话对齐向专业工程能力扩展。HACRL(136票)提出异构Agent协同RL新范式——不同结构模型在训练时共享验证轨迹互学习,推理时各自独立运行;CUDA Agent(75票)把 Agentic RL 推到 GPU Kernel 这一极度专业领域,在最难等级的 KernelBench 上超越最强专有模型约 40%;MOOSE-Star(74票)则把 RL 引入科学假说生成,打破了直接训练 P(h|b) 的组合复杂度壁垒。

第三条主线:扩散模型在语言和视频两端同步框架化。dLLM(115票)为扩散语言模型建立了统一开发框架;Helios(127票)实现 14B 模型单卡实时长视频生成;OmniLottie(131票)把扩散/自回归生成引入矢量动画格式,并构建了 MMLottie-2M 大规模数据集。

周度 Insight:本周论文集中呈现了 AI 研究的两种加速方式——一种是把已有能力推向更难的专业边界(CUDA Kernel、科学发现、跨仓库代码工程),另一种是把分散工具统一为可复用框架(dLLM、Utonia、ADE-CoT)。这两种方式共同构成了AI能力「深挖」与「普及」的双轮驱动。
01 / 15

Utonia:统一五域点云的自监督编码器,机器人操作提升 8.3%

138 upvotes 3D视觉 · HKU + Xiaomi · 03-04
Utonia Overview
Utonia 特征 PCA 可视化:城市级遥感、室外 LiDAR、室内重建、物体扫描四域在同一表征空间内保持语义一致性

点云数据来自遥感、自动驾驶 LiDAR、室内 RGB-D、CAD 模型等截然不同的传感器,尺度、密度、采样模式差异极端,此前自监督点云模型只能在单一域内训练(如 Sonata 在室内/室外分开预训练,Concerto 引入视频点云但仍排除物体域)。Utonia 迈出关键一步:用单一 Point Transformer 编码器,同时覆盖遥感、室外 LiDAR、室内 RGB-D 序列、物体 CAD 模型、视频点云五大域进行联合自监督预训练。

核心挑战在于处理域间颜色/法向量输入的不一致性。Utonia 引入自适应 C./N. 机制:当某域缺乏颜色或法向量时自动降级,避免模型被域特异性捷径主导而丢失跨域可迁移几何语义。预训练使用 masked autoencoding 范式。

5 域
遥感/LiDAR/室内/物体/视频联合
+2.1 mIoU
ScanNet 语义分割超单域预训练
+8.3%
VLA 机器人操作成功率提升

实验表明,联合训练带来跨域涌现行为:ScanNet 语义分割超越单域预训练 2.1 mIoU,nuScenes 检测提升 1.8 NDS。更值得关注的是 Utonia 表征向下游的迁移——接入视觉语言动作策略(VLA),机器人操作成功率提升 8.3%;接入 VLM 用于空间推理同样有增益。这表明通用点云表征不仅惠及感知任务,也能提升具身 AI 与多模态推理。

当五个截然不同的点云域共享同一编码器时,涌现出了比单独训练更强的表征——稀疏 3D 数据基础模型的路已经打通。
02 / 15

HACRL:异构Agent共享验证轨迹互相学习,训练协同推理独立

136 upvotes 多智能体RL · BUPT + ByteDance + Tsinghua + PKU · 03-05
HACRL Overview
HACRL vs 多智能体RL vs 知识蒸馏:HACRL 实现训练时协同优化、推理时独立执行的双向互学

RLVR(可验证奖励强化学习)通过可检验奖励信号直接对齐推理能力,已成为强化 LLM 推理的核心范式。但其瓶颈在于昂贵的在线采样:每个 Agent 需要自己生成轨迹、做验证,而这些中间结果只用于自身训练,多个 Agent 面对相同任务时大量重复计算。

HACRL(异构 Agent 协同强化学习)提出新范式:训练时协同优化、推理时独立执行。异构 Agent(参数量、架构或预训练数据不同)共享彼此生成的经过验证的轨迹(rollouts),互相从对方的成功/失败中学习,实现双向知识迁移,而非蒸馏中的单向师生关系。在此基础上提出 HACPO 算法,引入四项机制处理能力差异和策略分布偏移:无偏优势估计、分布加权、截断和归一化,并提供理论保证。

+3.3%
平均超越 GSPO
1/2 成本
仅用一半 rollout 代价
双向
异构Agent互学而非师生蒸馏

在多种异构模型组合(不同参数量和系列)和推理基准上,HACPO 始终让所有参与 Agent 获得提升,平均超越 GSPO 3.3%,且仅用一半 rollout 成本。这验证了异构协同能有效突破每个模型自身的能力边界。

不同规模、不同系列的模型无需协同部署,只需在训练时共享彼此的推理轨迹——HACRL 把多 Agent 系统的协作成本前置到训练阶段。
03 / 15

OmniLottie:参数化 Lottie Token 驱动的多模态矢量动画生成

131 upvotes 矢量动画 · Fudan + StepFun + HKU · 03-03
OmniLottie Overview
OmniLottie 支持文本、图像、视频等多模态指令驱动的 Lottie 矢量动画生成,跨平台兼容

Lottie 是一种广泛采用的矢量动画格式,将所有形状、效果和运动参数存储在单个 JSON 文件中,具有跨平台兼容性强、轻量级可编辑的优势。但直接让语言模型生成 Lottie JSON 存在关键问题:原始 JSON 充斥大量不变的结构性元数据和格式 Token,语义信息密度极低,导致现有 LLM 生成成功率低且难以控制动画内容。

OmniLottie 的核心贡献是设计了专用 Lottie Tokenizer,将 JSON 文件转换为形状、动画函数和控制参数的结构化指令序列——大幅压缩序列长度同时保留语义。基于此 Tokenizer,OmniLottie 在预训练 VLM 上进行端到端微调,支持文本→Lottie、图文→Lottie、视频→Lottie 三类生成任务。为支持大规模训练,研究团队还构建了 MMLottie-2M,包含 200 万条专业设计矢量动画及配套文本/视觉标注。

MMLottie-2M
200万专业矢量动画数据集
3 模态
文本/图文/视频→Lottie
端到端
VLM 微调,无需规则后处理

广泛实验验证 OmniLottie 能生成语义一致、动效自然、格式合规的矢量动画,生成成功率显著优于直接输出 JSON 的基线方法。这项工作填补了生成式 AI 在轻量级矢量媒介上的空白,对设计工具和创意内容生产有直接应用价值。

把 Lottie JSON 压缩成语义 Token 序列,让 VLM 用理解图文的方式理解和生成动画——矢量创意内容的自动化迎来新突破。
04 / 15

ADE-CoT:难度感知自适应图像编辑 CoT,2× 加速同时提升质量

130 upvotes 图像编辑 · IIE-CAS + Alibaba AMAP · 03-03
ADE-CoT Overview
T2I 生成(开放任务)适合大规模采样,图像编辑(目标导向)固定预算会造成冗余——ADE-CoT 针对这一差异做自适应分配

Image Chain-of-Thought(Image-CoT)通过在推理时生成多个候选方案再选优来提升图像生成质量,已在文生图(T2I)任务上取得显著效果。但将其直接迁移到图像编辑面临三个根本性挑战:(1) 固定采样预算在简单编辑上浪费计算;(2) 用通用 MLLM 打分在早期阶段不可靠;(3) 目标导向的编辑任务中大规模采样产生大量冗余正确结果。

ADE-CoT(自适应编辑 CoT)针对性地提出三项策略:① 难度感知资源分配,根据预估编辑难度动态分配采样预算;② 编辑专用早期验证,利用区域定位和字幕一致性评估(而非通用 MLLM 打分)做候选筛选;③ 深度优先机会性停止,由实例级验证器引导,一旦找到意图对齐结果即终止。三者结合适用于 Step1X-Edit、BAGEL、FLUX.1 Kontext 等多个前沿编辑模型。

2× 加速
相同预算下性能更好
3 基准
Step1X/BAGEL/FLUX通用
动态预算
难度感知采样分配

在三个基准上的大量实验表明,ADE-CoT 在可比采样预算下 超越 Best-of-N 同时实现 2× 以上加速,为图像编辑的测试时扩展提供了高效实用的解决方案。

图像编辑不是开放任务,固定 32 个样本是对简单编辑的浪费——按需分配预算才是正确的测试时扩展路径。
05 / 15

Helios:14B 自回归扩散模型,单卡 H100 实时 19.5 FPS 长视频生成

127 upvotes 视频生成 · PKU + ByteDance + Canva · 03-05
Helios Overview
各视频生成模型单 H100 端到端吞吐量(FPS)对比:Helios 在同等规模中大幅领先,接近 1.3B 蒸馏模型速度

当前视频生成的前沿困境:更大参数量带来更好质量,但推理速度和长视频稳定性严重不足。现有实时生成方法通常依赖 1.3B 小模型,复杂运动和高频细节表现有限;Krea-RealTime-14B 将规模扩大,但在单 H100 上仅达到 6.7 FPS。Helios 在三个关键维度同时突破:

(1) 抗漂移训练无需特殊启发式:分析长视频漂移失败模式,提出训练策略在训练时显式模拟漂移,从根源消除重复运动,无需 Self-Forcing、error-bank 或关键帧采样;(2) 实时生成无需标准加速技巧:通过大幅压缩历史和噪声上下文、减少采样步数,计算成本与 1.3B 模型相当;(3) 训练无需并行或分片框架:通过基础设施级优化,80GB GPU 内存可容纳最多四个 14B 模型,实现图像扩散量级的 batch size。

19.5 FPS
单 H100 端到端吞吐
14B
自回归扩散模型参数量
分钟级
无漂移长视频生成

在短视频和长视频生成基准上,Helios 始终优于蒸馏模型,同时接近基础大模型的质量。团队计划开放代码、基础模型和蒸馏模型权重。

14B 参数、19.5 FPS、单张 H100——Helios 证明实时长视频生成不需要以质量换速度,也不需要超大算力。

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录
06 / 15

dLLM:扩散语言模型的统一开源框架,降低 DLM 研究门槛

115 upvotes 扩散模型 · UC Berkeley + UIUC · 03-02
dLLM Overview
dLLM 框架三大组件:统一训练(Masked/Block Diffusion)、轻量推理抽象、标准评测接口

扩散语言模型(DLMs)已展现出自回归语言模型之外的独特优势:支持迭代精化、灵活引导和高效解码。然而现有研究中的关键组件分散在各个 ad-hoc 代码库中,缺乏透明实现,使得复现、对比和扩展工作都极为困难。dLLM 是来自 UC Berkeley 和 UIUC 的开源框架,围绕三个核心组件统一 DLM 开发管线:

(1) 训练模块:覆盖最常见目标——Masked Diffusion 和 Block Diffusion——扩散建模逻辑与模型架构解耦,新目标和变体只需最小改动即可集成。用户可直接复现和微调 LLaDA、Dream 等现有大型 DLM;(2) 推理模块:轻量抽象支持即插即用的推理算法(含优化高效解码算法)而无需修改模型实现;(3) 评测模块:提供跨模型统一评测接口,可复现各模型官方结果。此外还发布了从 BERT 编码器或自回归 LM 转换为 DLM 的最小可复现配方,以及对应的小型 DLM 检查点。

3 组件
训练/推理/评测统一管线
开源
github.com/ZHZisZZ/dllm
BERT→DLM
任意编码器可转换为扩散LM

dLLM 的意义在于:扩散语言模型正从各自为战走向标准化生态,就像 Hugging Face Transformers 对自回归模型所做的那样。这是 DLM 领域基础设施建设的重要里程碑。

扩散语言模型需要的不只是更好的算法,更需要一个让所有人能复现、对比、扩展的统一框架——dLLM 补上了这块缺失的基础设施。
07 / 15

T2S-Bench & Structure-of-Thought:文本结构化推理的评测与提示新范式

105 upvotes 结构化推理 · Duke University + Meta · 03-05
T2S-Bench Overview
Structure-of-Thought 跨 8 个文本处理任务和 3 个模型系列的提升效果对比

人类处理复杂阅读任务时会自然地提取关键节点、推断关系、构建结构——这种结构化过程是高质量理解的基础。类比到 LLM,是否显式引导模型构建文本中间结构也能系统性提升性能?这篇论文给出了肯定答案。

Structure-of-Thought(SoT)是一种通用提示策略:指导模型在生成最终答案前,先将文本结构化为关键节点和关系。来自 Duke 和 Meta 的团队验证 SoT 在 8 个主流文本处理任务和 3 个模型系列上一致显著提升,表明文本结构是增强各类下游任务的通用中间表征。基于此洞见,团队构建了 T2S-Bench,首个专门评测和提升模型文本到结构能力的基准:1800 个样本,跨 6 个科学领域,32 种结构类型,覆盖 45 个主流模型。

+5.7%
SoT 在 8 任务平均提升
+8.6%
SoT + T2S-Bench 微调后
52.1%
多跳推理平均准确率(待提升空间大)

关键评测发现:45 个主流模型在多跳推理任务上平均准确率仅 52.1%,即使最先进模型在端到端提取任务中节点准确率也只有 58.1%。文本结构化能力是当前 LLM 的薄弱环节,SoT 和 T2S-Bench 提供了互补的提升路径:前者通过提示,后者通过微调数据。

LLM 擅长生成文字,却不擅长在文字中构建结构——SoT 让模型先画图再答题,T2S-Bench 量化了这个能力的差距。
08 / 15

UniG2U-Bench:统一多模态模型的生成能力真的提升了理解吗?

79 upvotes 多模态 · MSRA + SJTU + NTU + Oxford · 03-04
UniG2U-Bench Overview
UniG2U-Bench: 30+ 模型在 7 大评测维度(G2U 能力)雷达图——统一模型普遍落后于基础 VLM

统一多模态模型(Bagel、OmniGen、Show-o、Janus 等)宣称「理解+生成一体化」带来双向互利,但生成能力是否真的提升了理解这一核心问题一直缺乏系统验证。UniG2U-Bench 填补这一空白:将生成到理解(G2U)评测分为 7 大维度、30 个子任务,涵盖需要不同程度显式/隐式视觉变换的场景(空间智能、视觉错觉、几何推理、多轮推理等)。

研究严格将统一模型与其基础 VLM 配对,在相同推理协议下隔离 G2U 效果,评测了 30+ 模型。三个核心发现:(1) 统一模型普遍不如基础 VLM,Generate-then-Answer 推理通常比直接推理更差;(2) 仅在空间智能、视觉错觉、多轮推理子任务中出现一致性提升;(3) 具有相似推理结构的任务和共享架构的模型表现出相关的行为模式,表明统一训练诱导了类别一致的归纳偏置。

7 × 30
评测维度 × 子任务
30+
覆盖模型数量
3 个发现
统一模型普遍弱于基础VLM

结论并非全盘否定统一模型,而是指向更精细的训练策略需求:需要更多样化的训练数据和新范式,才能真正将生成能力转化为理解优势。

统一模型的生成能力并未普遍提升理解,只在空间推理等特定场景有效——「大一统」仍需更精细的训练策略。
09 / 15

CUDA Agent:大规模 Agentic RL 训练 GPU Kernel 专家,KernelBench 超越最强专有模型 40%

75 upvotes 代码Agent · ByteDance Seed + Tsinghua AIR · 03-02
CUDA Agent Overview
CUDA Agent 三大组件:可扩展数据合成 + 技能增强开发环境(自动验证+性能分析)+ RL 算法稳定训练

GPU Kernel 优化是现代深度学习基础设施的核心,但这是一项需要深厚硬件知识的高度专业化任务。尽管 LLM 在通用编程上表现出色,现有方法在 CUDA Kernel 生成上仍然无法与 torch.compile 这样的编译器系统竞争,更不用说与人类专家相比。

CUDA Agent 是一个大规模 Agentic RL 系统,通过三个互补维度提升模型的 CUDA Kernel 编码能力:(1) 可扩展数据合成管线:生成覆盖广泛难度等级的训练问题,支持有效的课程式 RL 训练;(2) 技能增强的 CUDA 开发环境:配备自动化验证和性能分析脚本提供可靠奖励信号,系统级权限隔离防止奖励作弊;(3) RL 算法稳定性技术:提出 Actor 和 Critic 的多阶段预热策略解决训练不稳定性。

100%
Level-1/2 超越 torch.compile 速率
92%
最难 Level-3 超越率
+40%
超越 Claude Opus 4.5/Gemini 3 Pro

CUDA Agent 在 KernelBench 上取得 SOTA:Level-1 和 Level-2 100% 超越 torch.compile,Level-3(最难级别)92% 超越率,在最难设置上超越 Claude Opus 4.5 和 Gemini 3 Pro 约 40%。这是 LLM 首次在这一专业任务上实现系统性突破。

Agentic RL 配上正确的领域环境和奖励信号,可以让 LLM 在 GPU Kernel 这一极度专业的领域超越最强专有模型。
10 / 15

SWE-rebench V2:语言无关的 SWE 任务规模化采集,支撑 RL 训练

75 upvotes 代码Agent · 多机构 · 03-03
SWE-rebench V2 Overview
SWE-rebench V2 自动化采集管线:交互式安装 Agent + LLM 集成过滤,跨语言规模化构建 RL 训练环境

软件工程 Agent(SWE)的快速进步很大程度上由强化学习驱动,但 RL 训练面临关键约束:缺乏大规模、可复现执行环境且测试套件可靠的任务集合。现有基准规模有限、多样性不足,且大多仅针对 Python 等高资源语言生态,制约了 SWE Agent RL 训练的规模化。

SWE-rebench V2 提出了一个语言无关的自动化管线,用于从真实世界代码仓库中大规模采集可执行 SWE 任务并构建 RL 训练环境:(1) 交互式安装 Agent 合成仓库特定的安装和测试流程;(2) LLM 集成过滤(ensemble of LLM judges)消除不健全实例;(3) 自动化适配多语言仓库,不依赖特定语言生态的假设。

语言无关
不限于 Python 生态
规模化
RL 训练环境自动构建
集成过滤
LLM Judge 保证任务质量

SWE-rebench V2 的核心价值在于解决了 SWE Agent RL 训练的数据基础设施瓶颈,为多样化、大规模、跨语言的代码工程 Agent 训练提供了可扩展的数据供给方案。

代码Agent的RL训练缺的不是算法,而是大规模可验证任务——SWE-rebench V2 把采集管线语言无关化,填补了这块基础设施空白。
11 / 15

MOOSE-Star:打破组合复杂度壁垒,用 RL 直接训练科学假说生成

74 upvotes 科学发现 · DAMO Academy + Alibaba · 03-06
MOOSE-Star Overview
MOOSE-Star 框架:通过分解生成过程打破 O(N^k) 组合复杂度,实现科学假说生成的可训练优化

LLM 在科学发现领域的应用正在快速扩展,但现有研究集中在推理阶段或反馈驱动训练,对于直接建模生成推理过程 P(假说|背景) 的训练探索不足。根本原因:从庞大知识库中检索和组合启发信息,天然面临 O(N^k) 的组合复杂度,使得直接训练在数学上不可行。

MOOSE-Star 提出统一框架打破这一壁垒:通过分解生成过程,在最优情况下将复杂度从 O(N^k) 降至 O(N+k),同时保持可扩展推理。框架支持两种互补的训练策略——基于实例的 RL 与数据驱动的知识蒸馏——以及在对齐 RLVR 设置下的融合。

O(N+k)
复杂度从 O(N^k) 降至线性
RLVR
可验证奖励驱动的假说生成
TOMATO-Star
配套科学发现训练数据集

研究团队同步发布了 TOMATO-Star 科学发现数据集和 MOOSE-Star 模型检查点。这项工作为 AI 辅助科研开辟了新方向:将生成式科学推理从纯推理阶段应用扩展到可系统训练优化的范式。

科学发现的组合空间太大让直接训练不可行——MOOSE-Star 用分解技巧把复杂度降到线性,RL训练科学假说成为可能。
12 / 15

Meta FAIR 多模态预训练:从头实验揭示 RAE、数据协同与 MoE 的四大设计准则

69 upvotes 多模态预训练 · FAIR Meta + NYU (Yann LeCun) · 03-04
Meta FAIR Multimodal
多模态预训练设计空间系统性探索:RAE 表征、视觉-语言数据协同效应、世界建模涌现、MoE 缩放法则

视觉世界是推动基础模型超越语言的关键轴心,但原生多模态模型的设计空间仍然不透明——哪些选择真正重要?来自 Meta FAIR 和 NYU(Yann LeCun 等参与指导)的团队通过严格控制变量的从头预训练实验,在不依赖任何语言预训练的前提下,系统隔离多模态预训练的核心因素。实验框架采用 Transfusion:语言用下一个 Token 预测,视觉用扩散。

四个关键发现:(1) RAE(Reconstruction Autoencoder)是最优统一视觉表征,同时擅长理解和生成;(2) 视觉和语言数据互补,联合训练产生跨模态协同效应;(3) 世界建模能力从通用训练中自然涌现,无需专项设计;(4) MoE 架构高效且自然诱导模态专业化,通过 IsoFLOP 分析揭示视觉比语言需要更多数据的缩放不对称性,MoE 恰好调和了这种不对称。

RAE
理解+生成最优统一表征
MoE
调和视觉-语言缩放不对称
涌现
世界建模能力从通用训练自然涌现

这项工作为多模态基础模型的设计提供了迄今最系统的从头实验指导,对领域内如何构建高效多模态基础模型具有重要参考价值。

MoE 不仅节省计算,还能自然调和视觉与语言的数据需求不对称——Meta FAIR 用严格实验给出了多模态设计的「为什么」。
13 / 15

RubricBench:评分标准对齐——模型生成的 Rubric 与人类标准有多远?

51 upvotes 评测 · 多机构 · 03-03
RubricBench Overview
RubricBench 评测框架:模型生成评分标准(Rubric)与人工制定标准之间的对齐程度系统评测

随着 LLM 对齐从简单补全发展到复杂生成,奖励模型越来越多地转向基于 Rubric(评分标准)的评估来减轻表面偏见。这类 Rubric 引导评估方法的有效性,很大程度上依赖模型生成的 Rubric 与人类标准的对齐程度——但这一能力此前缺乏统一基准评测。

RubricBench 填补这一空白,构建了专门评测这一对齐程度的基准:测试模型能否生成与人类评估者一致的评分标准,覆盖写作质量、代码正确性、推理链等多个维度的复杂生成任务。基准的核心贡献在于将「模型能打出正确分数」与「模型能生成对人类有意义的评分框架」这两个不同能力区分开来。

Rubric 对齐
模型生成标准 vs 人类标准
多维度
写作/代码/推理等复杂任务
区分能力
评分准确 ≠ Rubric 质量高

RubricBench 的意义在于:随着 AI 评测越来越依赖 LLM-as-Judge 和基于 Rubric 的自动评估,理解模型生成评估框架的质量与局限性变得尤为重要,这对 RLHF 数据质量和 AI 对齐研究都有直接影响。

能打出正确分数的模型不一定能生成好的评分标准——RubricBench 拆开了这两种能力,揭示了自动评测中被忽视的对齐差距。
14 / 15

BeyondSWE:代码 Agent 走出单仓库修 Bug 舒适区,500 个跨域任务揭示能力缺口

50 upvotes 代码Agent · 人民大学 + AweAI · 03-04
BeyondSWE Overview
BeyondSWE: 沿解决范围与知识范围两轴扩展 SWE 评测——CrossRepo/DomainFix/DepMigrate/Doc2Repo

SWE-bench 已成为代码 Agent 的标准评测,但其任务本质上局限于单仓库内的函数级 Bug 修复,与真实工程场景的需求存在显著差距。BeyondSWE 沿解决范围和知识范围两个轴系统扩展评测,500 个真实实例覆盖四类全新设置:CrossRepo(跨仓库推理)、DomainFix(领域专用修复,需要专业领域知识)、DepMigrate(依赖迁移,跨版本或跨库适配)、Doc2Repo(整库从文档生成)。

500 实例
4 类真实工程任务
< 45%
前沿模型成功率上限
无模型
全类型一致表现良好

实验结果清晰暴露当前代码 Agent 的系统性能力缺口:即使是最强前沿模型,成功率也低于 45%,且没有任何模型在所有任务类型上一致表现良好。研究团队同时开发了集成深度搜索的 SearchSWE 框架,但搜索增强效果并不一致,在某些任务上甚至降低性能。

代码Agent走出单仓库Bug修复的舒适区,成功率骤降至 45% 以下——真实工程场景的多样性远超当前 SWE 基准的覆盖范围。
15 / 15

空间理解增强文生图:SpatialReward 数据集与奖励模型强化空间关系生成

47 upvotes 图像生成 · PKU + ByteDance Seed · 03-02
SpatialReward Overview
SpatialReward 框架:构建偏好数据集 → 训练空间关系奖励模型 → 引导文生图模型强化空间理解

文生图模型在视觉保真度和创意表达上取得了显著进步,但对于编码复杂空间关系的提示(如「红色球在蓝色立方体左侧,圆柱在两者后方」),现有模型仍然频繁失败,往往需要多次采样才能得到正确结果。

本文提出一种针对性增强方案:首先构建 SpatialReward-Dataset,包含超过 80,000 个偏好对,明确标注空间关系准确性;在此基础上训练 SpatialScore 奖励模型,专门评估文生图结果中空间关系的准确性,在空间评估任务上超越领先专有模型;最后将 SpatialScore 用于引导现有文生图模型的推理过程,在不改变模型权重的前提下显著提升空间关系生成准确率。

80K+
SpatialReward 偏好数据对
超专有模型
空间评估任务超越 GPT-4V 等
即插即用
不修改生成模型权重

这项工作展示了针对特定能力缺陷构建专用奖励模型的有效路径:用高质量偏好数据+精细评估维度来弥补通用奖励模型在空间理解上的不足,对文生图的可靠性提升有实践意义。

文生图最难的不是画什么,而是把「什么在什么左边」画准——SpatialReward 数据集和奖励模型为这个空间理解盲区提供了针对性补丁。
周度趋势

3月第一周值得关注的三个信号

参考链接

感谢你读完这份周报。本周 151 篇论文里,RL 的边界在继续扩张,从推理数学到 GPU Kernel 再到科学假说;「统一模型」的宣称在接受更严格检验;基础设施建设正在悄悄填补各个子领域的工具空白。

下周继续关注三件事:(1) 异构 Agent 协同 RL 有没有更多跟进工作;(2) 扩散语言模型生态在 dLLM 框架基础上如何加速;(3) 视频生成实时化路线的竞争格局如何演变。

如果这份周报对你有帮助,欢迎顺手点赞、在看、转发三连,让更多关注 AI 研究的朋友看到。想第一时间收到下周周报,记得给公众号加个星标

© 2026 AI Insight · 机智流 · 本文由 Intern-S1-Pro 等 AI 生成,可能有误