HF每日论文 | 3月17日：AI 学会科研品味、全开源搜索 Agent 登场、注意力机制两连发

速览目录 · Top 10

#	论文	领域	Votes
1	Scientific Taste	AI 科研 / 元研究	214
2	OpenSeeker	搜索 Agent / 开源	123
3	EnterpriseOps-Gym	Agent / 评测基准	113
4	HSImul3R	具身智能 / 3D 重建	91
5	Seoul World Model	视频生成	90
6	AttnRes	LLM 架构	55
7	MoDA	大模型架构	45
8	xLSTM 蒸馏	大模型架构	28
9	CAD (VLM 幻觉诊断)	多模态	24
10	ViFeEdit	视频生成	19

今日主线一：AI 元研究的突破——复旦团队让 AI 学会判断论文潜在影响力，Scientific Judge 超越 GPT-5.2 和 Gemini 3 Pro，这标志着 AI 从"写论文"进化到"评论文"。主线二：开源 Agent 全面崛起——OpenSeeker 仅用 11,700 条合成数据训练出 30B 搜索 Agent，在 BrowseComp 上以 29.5% 大幅领先第二名（15.3%），全栈开源。主线三：注意力机制的深层革新——Kimi 的 AttnRes 和字节的 MoDA 分别从残差路径和跨层检索两个角度重新设计深层 Transformer。

Insight：当 AI 开始具备"科研品味"，下一个被革新的不只是论文写作，而是整个科研评审体系——从同行评议到基金评审都将面临范式转换。

01 / 10

Scientific Taste: 用强化学习让 AI 学会判断论文潜在影响力

214 upvotes AI 科研 / 元研究 · 复旦大学

Scientific Taste Overview — RLCF 两阶段训练：Scientific Judge（偏好建模）→ Scientific Thinker（RL 对齐 idea 生成）

顶尖科学家不只擅长执行研究，更具备一种难以言传的「科学品味」——判断哪个研究方向值得追，哪篇 idea 有真正的影响力。这种能力此前被认为只属于人类专家，而本文来自复旦大学的团队尝试将其系统化、可学习化。

核心动机：现有 AI 科学家研究大多聚焦于「执行能力」（如文献检索、自动实验），对 AI 如何判断研究价值这一上游问题几乎空白。论文指出，引用数是社区对研究价值的长期集体反馈，可以作为偏好信号的代理。

方法框架 RLCF（Reinforcement Learning from Community Feedback）：研究分两个模块。首先训练 Scientific Judge，基于 70 万对「高引 vs 低引」论文摘要对（按领域和发表时间严格匹配）进行偏好建模，让模型学会从 abstract 层面判断哪篇论文更有影响力潜力。随后以 Scientific Judge 作为奖励模型，通过强化学习训练 Scientific Thinker，使其提出的 research idea 分布朝高影响力方向对齐。

关键结果：Scientific Judge 在 SciJudgeBench 上超越 GPT-5.2、Gemini 3 Pro 等闭源旗舰模型，且泛化到未见领域、未来年份测试集和同行评审偏好场景。Scientific Thinker 生成的 idea 在集成评估下胜过未对齐基线模型的胜率显著提升。

一句话总结：用 70 万对高低引用论文作偏好数据，通过 RLCF 两阶段训练，首次系统验证了 AI 可以习得「科学品味」并将其迁移到 idea 生成中。

70 万对

高引 vs 低引论文偏好数据

超越

GPT-5.2 & Gemini 3 Pro

RLCF

社区反馈强化学习

🔗 huggingface.co/papers/2603.14473 · paperscope.ai/hf/2603.14473

02 / 10

OpenSeeker: 全开源训练数据驱动的前沿级搜索 Agent

123 upvotes 搜索 Agent / 开源 · 上海交通大学

OpenSeeker Overview — OpenSeeker 训练流水线：可控 QA 合成 + 去噪轨迹 + 单次 SFT 达到前沿级搜索能力

深度搜索能力正成为前沿 LLM Agent 的标配，但高性能搜索 Agent 的训练数据长期被工业界垄断，开源社区缺乏完整的可复现路径。上海交通大学团队推出 OpenSeeker，将模型权重、训练数据、合成 pipeline 全部开放，试图打破这一壁垒。

核心动机：BrowseComp 基准上，截至 2025 年 4 月即便最强闭源模型也难超 10 分；到 2026 年 3 月已有超过 10 个 Agent 突破 50 分。然而这些高分 Agent 几乎全部来自有充裕算力的大厂，训练数据从未公开。OpenSeeker 针对这一「数据黑箱」问题切入。

两项核心技术：（1）基于事实的可控 QA 合成：通过拓扑展开（topological expansion）和实体混淆（entity obfuscation）对 Web 图谱进行逆向工程，自动生成复杂度和覆盖度可控的多跳推理问题，从根本上解决数据稀缺问题。（2）去噪轨迹合成：引入回顾式摘要机制（retrospective summarization），对 teacher LLM 生成的搜索轨迹进行噪声过滤，显著提升动作序列质量，使 SFT 训练更有效。

关键结果：OpenSeeker（30B，仅 11,700 条合成样本 + 单次 SFT 训练）在 BrowseComp、BrowseComp-ZH、xbench-DeepSearch、WideSearch 四个基准上均达到 SOTA 开源水平。BrowseComp 上以 29.5% 大幅领先第二名全开源 Agent DeepDive（15.3%），BrowseComp-ZH 上甚至超越经过持续预训练 + SFT + RL 的通义 DeepResearch（48.4% vs 46.7%）。

一句话总结：用不到 1.2 万条合成训练样本 + 单次 SFT，OpenSeeker 实现了对工业界闭源搜索 Agent 的比肩乃至超越，并将完整数据和权重开源，为搜索 Agent 研究提供了可复现的基准起点。

11,700

合成训练样本数（单次 SFT）

29.5%

BrowseComp 得分（#2 仅 15.3%）

全开源

权重 + 数据 + Pipeline

🔗 huggingface.co/papers/2603.15594 · paperscope.ai/hf/2603.15594

03 / 10

EnterpriseOps-Gym：企业级有状态智能体规划与工具调用基准测试

113 upvotes Agent / 评测基准

EnterpriseOps-Gym Overview — EnterpriseOps-Gym：164 张数据库表 + 512 个工具 + 1,150 道任务，覆盖 8 大业务领域

当前 AI Agent 的企业落地面临一个根本性矛盾：现有评测基准过于简化，根本无法反映真实业务场景的复杂性。EnterpriseOps-Gym 正是为填补这一空白而生。

基准设计：研究团队构建了一个容器化沙盒环境，内含 164 张数据库表和 512 个可调用工具，跨越客服、HR、IT 等 8 大业务领域，共设计 1,150 道专家级任务。与 SWE-bench 等代码基准不同，这里的任务要求 Agent 在有持久状态变更的环境中维持多步骤计划，并严格遵守访问控制策略——这正是企业真实工作流的核心挑战。

核心发现令人警醒：对 14 个前沿模型的测评显示，最强的 Claude Opus 4.5 成功率仅为 37.4%，开源模型普遍低于 20%。更关键的发现是：当提供人工编写的「Oracle 计划」后，成功率提升 14–35 个百分点，这直接指向了模型的战略推理能力是当前瓶颈所在，而非工具调用能力本身。

另一个高风险问题是拒绝不可行任务的能力——最佳模型也只有 53.9% 的正确拒绝率。这意味着近半数情况下，Agent 会在无法完成的任务上执行错误操作，直接修改数据库或触发下游流程，产生难以逆转的副作用。

对企业部署的启示：研究清晰地表明，当前 Agent 尚不具备在企业环境中完全自主运行的能力。EnterpriseOps-Gym 为研究界提供了一个可复现的压力测试平台，指引未来工作聚焦于长程规划和策略合规两大方向。

37.4%

最强模型成功率（Claude Opus 4.5）

1,150

专家级任务数

+14~35%

Oracle 计划带来的提升

🔗 huggingface.co/papers/2603.13594 · paperscope.ai/hf/2603.13594

04 / 10

HSImul3R：物理仿真驱动的人-场景交互三维重建框架

91 upvotes 具身智能 / 3D 重建

HSImul3R Overview — HSImul3R 双向优化框架：正向（运动精炼）+ 反向（场景几何修正）互补协同

从视频或图片重建人与场景的交互过程，是具身机器人训练数据获取的核心难题。现有方法普遍存在「视觉可信、物理失效」的困境：重建结果看起来合理，但一旦导入物理引擎，人物就会穿墙、漂浮或倒塌。HSImul3R 提出了一套以物理仿真器为核心监督信号的双向优化框架，直接攻克这一感知-仿真鸿沟。

核心架构——双向优化：框架分为两个互补方向。正向优化在固定场景几何的前提下，采用「场景靶向强化学习」来精炼人体运动，同时以运动保真度和接触稳定性作为双重奖励信号，确保脚步不悬空、手部真实触碰物体。反向优化则创新性地引入「直接仿真奖励优化（DSRO）」，利用仿真器对重力稳定性和交互成功率的反馈，反过来修正场景几何——物体的形状和位置会被迭代调整，直到满足物理约束。

数据来源灵活：HSImul3R 同时支持稀疏视角图片和单目视频作为输入，借助图像到三维生成模型建立度量一致的初始对齐，降低了数据采集门槛，方便在野外环境中收集真实人类行为。

实验证明，HSImul3R 生成的重建结果可以直接部署到真实人形机器人，完成搬运、坐立等复杂动作，是当前少数能真正打通「感知重建→物理仿真→机器人部署」完整链路的工作之一。

🔗 huggingface.co/papers/2603.15612 · paperscope.ai/hf/2603.15612

05 / 10

将世界仿真模型锚定到真实城市：首尔世界模型

90 upvotes 视频生成 · KAIST AI + NAVER AI Lab

Seoul World Model Overview — Seoul World Model：RAG 条件生成 + Virtual Lookahead Sink，让世界模型锚定真实地理

大多数视频世界模型生成的都是"虚构环境"——给定一张起始图，后续所有内容由模型凭空想象。KAIST AI 与 NAVER AI Lab 合作提出的 Seoul World Model（SWM） 反其道而行：让世界模型生成的是真实存在的首尔街道，而非杜撰出来的城市景观。

核心方案是检索增强条件生成（RAG-conditioned generation）。给定 GPS 坐标、摄像机动作和文字提示，SWM 从街景图库中检索附近的参考图，将几何结构与外观信息注入自回归视频生成过程，使每段生成内容都锚定在真实地理位置的布局之上。模型在 44 万张首尔街景图、真实驾驶视频和合成城市数据上微调一个预训练视频世界模型。

引入真实街景带来三个技术难点，论文逐一给出解法：时序错位（检索到的旧图与动态目标场景不一致）→ 跨时间配对训练策略；轨迹多样性不足与数据稀疏（车载采集间隔大）→ 构建大规模合成数据集 + 视角插值流水线；长程生成飘移 → 提出 Virtual Lookahead Sink，每段生成前持续将未来位置的检索图作为锚点重新校准。

在首尔、釜山和 Ann Arbor 三座城市的评测中，SWM 在空间保真度、时序一致性和长程稳定性上均优于现有视频世界模型，可沿数百米轨迹生成与真实城市高度吻合的视频，同时支持多样化摄像机运动和文字驱动的场景变换（如洪水、黄昏光效）。

44 万

首尔街景训练图片

3 城市

首尔 / 釜山 / Ann Arbor 评测

GPS 锚定

RAG 条件生成真实地理

🔗 huggingface.co/papers/2603.15583 · paperscope.ai/hf/2603.15583

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或

06 / 10

注意力残差：用深度维注意力替代固定残差累加

55 upvotes LLM 架构 · Kimi 团队

AttnRes Overview — AttnRes：伪查询向量对所有历史层做 softmax 注意力，动态选择性聚合跨层信息

现代大语言模型中，残差连接（Residual Connection）与 PreNorm 几乎是标配，但它们始终以固定单位权重对所有层的输出做均匀累加。Kimi 团队发现这种均匀聚合会导致隐藏状态随深度以 O(L) 速度增长，越深的层对最终表示的贡献越被稀释，早期层的信息无法被选择性地取用——这正是大量层可以被无损剪枝的根本原因。

论文提出 Attention Residuals（AttnRes），用深度维度上的 softmax 注意力替换固定累加。具体而言，每层用一个可学习的伪查询向量（d 维）对前面所有层的输出计算注意力权重，使当前层能够内容感知地、动态地从历史各层中选择性聚合信息。作者指出这与 RNN 在序列维度遇到问题后引入注意力机制的情形在形式上完全对称。

面向大规模训练的工程挑战，论文进一步提出 Block AttnRes：将层分组为若干 Block，仅在 Block 级表示上做注意力，把内存开销从 O(Ld) 降至 O(Nd)，同时结合基于缓存的流水线通信和两阶段计算策略，使其成为标准残差连接的即插即用替代方案，几乎无额外开销。

Kimi 团队将 AttnRes 集成进 Kimi Linear 架构（48B 总参数 / 3B 激活参数），在 1.4T token 上预训练验证：AttnRes 有效缓解了 PreNorm 稀释问题，使各层输出幅度和梯度分布更均匀，所有下游评测任务均有提升。Scaling law 实验也确认改进在不同模型规模下保持一致。

48B

总参数 / 3B 激活参数

1.4T

预训练 token 数

即插即用

替代标准残差，几乎零额外开销

🔗 huggingface.co/papers/2603.15031 · paperscope.ai/hf/2603.15031

07 / 10

MoDA：混合深度注意力，让大模型深度扩展不再「信息稀释」

45 upvotes 大模型架构 · 字节跳动 Seed + 华中科技大学

MoDA Overview — MoDA：在序列维度注意力基础上增加深度维 KV 检索，以 3.7% FLOPs 换取 2.11% 平均提升

核心问题：深度扩展中的信息稀释

大语言模型扩展深度时存在一个长期困扰：浅层形成的有价值特征，在经过一层又一层的残差更新后会被逐渐"冲淡"，到深层时已难以有效恢复。这本质上是残差路径的单轨制缺陷——所有历史信息都被压缩进一条隐状态轨迹，没有任何机制让深层直接"回望"浅层曾经存储的关键信息。

MoDA 的解决思路

来自字节跳动 Seed 与华中科技大学的团队提出了 混合深度注意力（MoDA）。其核心思想是：在标准的序列维度注意力基础上，同时允许每个注意力头跨层访问"深度 KV"——即同一序列位置在所有前驱层产生的 Key-Value 对。

这相当于把注意力机制从"序列内检索"扩展到了"深度维检索"：模型不仅能在同一层内关注不同位置的 token，还能在同一位置回溯不同层深度上曾经编码过的特征，实现了 DenseNet 跨层连接的语义，但以注意力的数据驱动方式动态选择，而非固定稠密连接。

实验结果

在 1.5B 参数规模的模型上，MoDA 相比强基线（OLMo2）带来显著提升：

10 个验证集上平均困惑度降低 0.2
10 个下游任务平均性能提升 2.11%
额外计算开销仅 3.7% FLOPs

此外，MoDA 与 post-norm 组合时效果优于 pre-norm，这为架构选型提供了实用指导。代码已开源。

+2.11%

10 个下游任务平均提升

3.7%

额外 FLOPs 开销

97.3%

FlashAttention-2 效率保持

🔗 huggingface.co/papers/2603.15619 · paperscope.ai/hf/2603.15619

08 / 10

xLSTM 蒸馏新突破：Expert 合并让线性架构无损继承 Transformer 能力

28 upvotes 大模型架构 · NXAI + 林茨大学（Sepp Hochreiter 团队）

xLSTM Distillation Overview — Expert 合并蒸馏流程：分治专家训练 → 合并 → xLSTM 学生模型在代码和数学上追平教师

背景：线性化蒸馏的老大难问题

将 Transformer LLM 蒸馏成线性复杂度架构，是降低推理成本的重要路线。但长期以来，蒸馏出的学生模型总有一道坎迈不过去：在语言理解和知识类任务上勉强追平教师，一到数学推理、代码生成这类需要强生成能力的任务上就明显掉队。

关键创新：Expert 合并阶段

论文的核心贡献是在蒸馏流程中引入了一个额外的 Expert Merging 阶段：先对各层独立进行线性化专家训练，再将多个专家合并成单一模型。这种分治再合并的策略，让每个专家在局部优化时不受其他层干扰，合并后又能发挥协同效应，显著提升了学生模型在复杂生成任务上的表现。

实验覆盖与结果

团队以 xLSTM 作为学生架构，对 Llama、Qwen、OLMo 系列的 base 模型和指令微调模型进行蒸馏：

xLSTM-Qwen2.5-7B-IT 和 xLSTM-Llama3.1-8B-IT 在数学、代码、STEM、对话等多个生成基准上达到或超越同类线性化方法的最佳基线
部分任务上学生模型甚至超越教师，验证了 xLSTM 线性架构本身的表达潜力

xLSTM 架构具备线性推理复杂度，在长序列上推理成本远低于 Transformer。本文将高性能 Transformer LLM 的知识有效迁移到 xLSTM，向"用更少能耗部署同等能力模型"这一目标迈出了重要一步。

🔗 huggingface.co/papers/2603.15590 · paperscope.ai/hf/2603.15590

09 / 10

解剖谎言：多阶段诊断框架追踪视觉语言模型幻觉根源

24 upvotes 多模态 · 新加坡国立大学

CAD Framework Overview — CAD 三阶段诊断：感知不稳定性 → 逻辑因果失败 → 决策模糊性，精确定位幻觉病灶

视觉语言模型（VLM）的幻觉问题一直是落地部署的核心障碍：模型会生成听起来合理但事实错误的内容。新加坡国立大学的研究团队提出了一个全新诊断范式，将幻觉从"静态输出错误"重新定义为"动态认知病理"。

核心发现：几何-信息对偶原理
论文最重要的理论贡献是发现了"几何-信息对偶"（geometric-information duality）：在认知状态空间（Cognitive State Space）中，模型生成轨迹的几何异常与信息论意义上的高惊讶度（surprisal）在本质上是等价的。这意味着幻觉检测可以被优雅地转化为几何异常检测问题——不需要昂贵的标注数据，只需在低维空间中观察轨迹偏离。

三阶段诊断框架 CAD
研究设计了一套信息论探针，将模型生成过程映射到可解释的低维认知状态空间，并定义三类可测量的病理状态：

感知不稳定性（Perceptual Entropy, H_Evi）：模型在证据生成阶段出现幻觉，如"看到"图中并不存在的摩托车
逻辑因果失败（Inferential Conflict, S_Conf）：模型结论与自身证据自相矛盾，即"认知失调"
决策模糊性（Decision Entropy, H_Ans）：最终答案阶段的不确定性过高

CAD 框架在 POPE（二元 QA）、MME（综合推理）、MS-COCO（开放字幕）三个基准上均达到最优性能，且在弱监督条件和含噪校准数据下依然鲁棒。代码已开源：github.com/Lexiang-Xiong/CAD

🔗 huggingface.co/papers/2603.15557 · paperscope.ai/hf/2603.15557

10 / 10

ViFeEdit：无需视频数据，仅用图像微调视频扩散 Transformer

19 upvotes 视频生成 · 新加坡国立大学 + 上海交通大学

ViFeEdit Overview — ViFeEdit 双路径管线：架构重参数化解耦空间与时间，纯图像微调支持 6 类视频编辑

视频编辑模型的训练通常需要海量配对视频数据，构建成本动辄耗费一万 GPU 天以上。新加坡国立大学与上海交通大学的联合团队提出 ViFeEdit，一个无需任何视频训练数据、仅靠 2D 图像就能微调视频扩散 Transformer 的框架。

核心思路：解耦空间与时间建模
现代视频 DiT（如万象 Wan 系列）采用 3D 全注意力机制，同时处理空间和时间维度，导致无法直接用图像数据训练。ViFeEdit 的关键创新是一种架构重参数化（architectural reparameterization）：将 3D 注意力中的空间独立性从时间维度中剥离出来，使调优器可以单独在 2D 图像上学习空间编辑行为，而预训练的时间模块保持冻结，继续维持帧间时序一致性。

双路径管线设计
ViFeEdit 采用双路径（dual-path）推理管线，为噪声调度配备独立的时间步嵌入，增强了对多种条件信号的适应性。同一个框架支持六类精细化视频编辑任务：

风格迁移 / 刚体替换 / 非刚体替换
颜色变换 / 对象添加 / 对象删除

这项工作的实用价值在于大幅降低视频编辑能力的获取门槛——中小团队无需搭建大规模 GPU 集群、无需收集配对视频，只需准备图像数据即可完成微调。代码已开源。

🔗 huggingface.co/papers/2603.15478 · paperscope.ai/hf/2603.15478

其余论文速览 · #11–46

#	论文	领域	Votes
11	Safe and Scalable Web Agent Learning via Recreated	Agent 安全	18
12	Make it SING: Analyzing Semantic Invariants in Cla	对抗鲁棒	15
13	TERMINATOR: Learning Optimal Exit Points for Early	CoT 优化	12
14	WebVR: Benchmarking Multimodal LLMs for WebPage Re	多模态评测	12
15	Panoramic Affordance Prediction	注意力机制	9
16	Understanding Reasoning in LLMs through Strategic	MoE 架构	9
17	FineRMoE: Dimension Expansion for Finer-Grained Ex	光照编辑	9
18	Learning Latent Proxies for Controllable Single-Im	人体运动生成	8
19	Riemannian Motion Generation: A Unified Framework	多模态推理	8
20	MMOU: A Massive Multi-Task Omni Understanding and	SFT vs RL	7
21	Supervised Fine-Tuning versus Reinforcement Learni	Coding Agent	7
22	Code-A1: Adversarial Evolving of Code LLM and Test	视频检测	7
23	Training-free Detection of Generated Videos via Sp	随机优化	7
24	POLCA: Stochastic Generative Optimization with LLM	Agent 竞技	6
25	The PokeAgent Challenge: Competitive and Long-Cont	遥感	6
26	RS-WorldModel: a Unified Model for Remote Sensing	视频推理	5
27	VisionCoach: Reinforcing Grounded Video Reasoning	视频生成	5
28	FlashMotion: Few-Step Controllable Video Generatio	文字渲染	4
29	GlyphPrinter: Region-Grouped Direct Preference Opt	知识图谱	4
30	MoKus: Leveraging Cross-Modal Knowledge Transfer f	KV Cache	3
31	OxyGen: Unified KV Cache Management for Vision-Lan	LLM 动机	3
32	Motivation in Large Language Models	货币政策	3
33	Mind the Shift: Decoding Monetary Policy Stance fr	多 Agent	3
34	Autonomous Agents Coordinating Distributed Discove	Agent 评测	3
35	EvoClaw: Evaluating AI Agents on Continuous Softwa	具身操作	3
36	Towards Generalizable Robotic Manipulation in Dyna	数学发现	3
37	HorizonMath: Measuring AI Progress Toward Mathemat	LLM 稀疏性	3
38	When Does Sparsity Mitigate the Curse of Depth in	文档解析	3
39	Efficient Document Parsing via Parallel Token Pred	扩散模型	3
40	Spectrum Matching: a Unified Perspective for Super	虚拟试穿	2
41	Garments2Look: A Multi-Reference Dataset for High-	概念分解	2
42	SCoCCA: Multi-modal Sparse Concept Decomposition v	TTS	2
43	VoXtream2: Full-stream TTS with dynamic speaking r	视频扩散	1
44	Tri-Prompting: Video Diffusion with Unified Contro	医疗 QA	1
45	sebis at ArchEHR-QA 2026: How Much Can You Do Loca	图像 Token	0
46	SNCE: Geometry-Aware Supervision for Scalable Disc	其他	0

今日趋势

AI 元研究能力涌现：Scientific Taste 214 票断层领跑，标志着 AI 从「执行科研」迈向「评判科研」——用 70 万对高低引用论文训练出的 Scientific Judge 已超越 GPT-5.2 和 Gemini 3 Pro，同行评议系统将迎来深层冲击。
开源 Agent 全面比肩闭源：OpenSeeker 以仅 11,700 条合成数据、单次 SFT 在 BrowseComp 上以 29.5% 大幅领先第二名，全栈开源证明了「小数据+精工程」可以打败「大算力+黑箱」的研发路线。
Transformer 深度扩展的架构革命：AttnRes（Kimi）和 MoDA（字节）同日登榜，分别从「残差路径动态化」和「跨层 KV 检索」两个角度重设计深层信息流，额外计算开销均在 4% 以内，是当前 LLM 架构创新最活跃的方向之一。

今天值得持续关注的三个趋势：
1. AI 科研元能力：从辅助写作到独立判断论文价值，AI 在科研生态中的角色正在升级
2. 注意力机制的深度革命：AttnRes 和 MoDA 表明，深层 Transformer 的信息流优化仍有巨大空间
3. 全开源 Agent 生态：OpenSeeker 证明开源数据+开源模型可以达到甚至超越闭源水平

感谢读到这里如果觉得今天的论文解读有收获，欢迎 点赞、在看、转发 三连支持～想第一时间看到新推送，记得给公众号加个星标，明天见

参考来源

Scientific Taste — huggingface.co/papers/2603.14473
OpenSeeker — huggingface.co/papers/2603.15594
EnterpriseOps-Gym — huggingface.co/papers/2603.13594
HSImul3R — huggingface.co/papers/2603.15612
Seoul World Model — huggingface.co/papers/2603.15583
AttnRes — huggingface.co/papers/2603.15031
MoDA — huggingface.co/papers/2603.15619
xLSTM 蒸馏 — huggingface.co/papers/2603.15590
CAD (VLM 幻觉诊断) — huggingface.co/papers/2603.15557
ViFeEdit — huggingface.co/papers/2603.15478