← 返回资讯
企业动态 @garrytan 2026-04-02

Mercor AI 大量 SOTA 训练数据泄露,涉及多家主要 AI 实验室

Y Combinator 总裁 Garry Tan 称 Mercor AI 泄露了各大实验室的大量高质量训练数据,涉及数十亿美元价值,引发国家安全担忧。

查看原文
AI 资讯解读

核心要点

2026年4月2日,Y Combinator 总裁 Garry Tan 在 X 平台披露,AI 招聘平台 Mercor AI 发生了重大数据泄露事件,泄露内容包含来自多家主要 AI 实验室的 SOTA(State-of-the-Art)训练数据,据估算价值达数十亿美元。Garry Tan 明确提及该事件已引发国家安全层面的担忧,涉及数据规模与影响范围在 AI 行业极为罕见。

原文 + 中文翻译

原文:(Garry Tan X 推文)"Mercor AI has leaked massive amounts of SOTA training data from major AI labs — data worth tens of billions of dollars. This is a national security concern."

翻译:「Mercor AI 泄露了来自主要 AI 实验室的大量 SOTA 训练数据——这些数据价值数百亿美元。这是一起国家安全事件。」

深度解读

一、为何这起泄露非同寻常

Mercor AI 作为一家以 AI 驱动人才评估与招聘为主业的初创公司,理论上并不应持有主流 AI 实验室的核心训练数据。如果其平台确实积累了此类数据,最可能的路径是通过用户提交内容——即 Mercor 的评估任务可能包含了大量来自 AI 研究人员、工程师和高管的工作输出,这些内容在不知情的情况下被系统性收集,最终形成了规模惊人的训练语料库。这与此前 Scale AI、Appen 等数据标注平台遭遇的争议一脉相承:平台方对数据使用边界的模糊处理,在大模型时代被急剧放大。数十亿美元的训练数据价值,意味着这些数据的质量和稀有度已达到行业顶尖水平,泄露造成的竞争损害无法用常规财务指标衡量。

二、对 AI 实验室的连锁冲击

如果泄露数据来自 OpenAI、Google DeepMind、Anthropic、Meta AI 等主流实验室的内部训练集,其影响将远超普通商业数据泄露。首先,竞争对手可能借此复现或追赶特定模型的训练路线,压缩原创实验室的技术领先窗口。其次,训练数据中可能包含敏感的行业路线图、超参数配置和架构设计思路,这些信息一旦流出,实质上等同于向竞争对手提供了「作弊手册」。更为棘手的是,部分训练数据可能涉及用户隐私数据或受版权保护的内容,由此引发的法律诉讼和监管调查将持续数年。

三、国家安全叙事的深层含义

Garry Tan 使用「国家安全」措辞而非简单的「商业丑闻」,暗示泄露数据可能涉及政府相关 AI 项目或国防应用场景的模型训练材料。2024 年以来,美国商务部 BIS 和 NSA 已多次强调 AI 数据供应链的国家安全风险,将模型训练数据纳入关键基础设施范畴。若调查证实 Mercor AI 的数据收集行为跨越了法律边界(尤其是涉及外国实体访问美国顶尖 AI 训练成果),美国外国投资委员会(CFIUS)和司法部可能将介入,事件的定性将从民事纠纷升级为刑事案件。

值得关注

信源行:Garry Tan X 平台原帖(x.com/garrytan)。背景报道:TechCrunch 往期关于 Mercor AI 融资与数据合规的报道(techcrunch.com);Wired 关于 AI 训练数据来源争议的系列调查(wired.com)。

本解读由 AI 自动生成,仅供参考。请以原文为准。