Elon Musk:xAI Colossus 2 超算正同时训练 7 个模型,最大规模达 10T
同时训练 7 个参数跨越 1T 到 10T 的模型加上 Imagine V2,Colossus 2 展示了饱和攻击策略:超规模算力同时押注多个方向。1GW 计划升至 1.5GW,超过大多数国家级 AI 计算中心,00 亿投资确立了 xAI 作为算力军备竞赛核心玩家。10T 参数模型一旦落地将是目前已知最大规模公开模型之一。当某个参与者能同时运行 7 条训练任务,传统串行迭代的节奏已被打破。
查看原文核心要点
2026年4月8日,Elon Musk 在 X 平台披露 xAI 旗下 Colossus 2 超算系统的最新训练状态:同时并行运行 7 个参数规模从 1T 到 10T 不等的模型,并额外推进 Imagine V2 的训练。该系统规划功率从初始 1GW 大幅提升至 1.5GW,整体投资规模达 100 亿美元(约合 00 亿人民币语境下的 100 亿$)。10T 参数模型一旦完成训练,将成为全球已知最大规模公开大模型之一,功率密度与国家级 AI 计算中心相当甚至超出,标志着 xAI 已正式确立为全球 AI 算力军备竞赛的顶级玩家之一。
原文 + 中文翻译
原文:"Simultaneously training 7 models (1T to 10T params) plus Imagine V2 on Colossus 2. Power scaling from 1GW to 1.5GW. $10B investment."
翻译:在 Colossus 2 上同时训练 7 个模型(参数规模从 1T 到 10T 不等),外加 Imagine V2。功率从 1GW 扩展至 1.5GW。投资规模 100 亿美元。
深度解读
一、"饱和攻击"策略重新定义竞争门槛
传统大模型训练遵循串行迭代逻辑:先完成一个基础模型,再在其上微调或训练新版本。xAI 此次披露的 7 模型并行训练模式,本质上是一种「饱和攻击」策略——用超规模算力同时覆盖多个参数量级与能力方向。这意味着 xAI 不再等待单一模型的训练结果再决定下一步,而是在 1T 到 10T 的参数光谱上同时撒网。其中任何一个模型取得突破,都能快速反馈到其他模型的架构设计或数据配比上,形成类似「强化学习中并行探索」的优势。相比 OpenAI、Google DeepMind 等主要竞争对手仍在推进的「重注单一旗舰模型」路径,xAI 的多线并行模式在样本效率上可能构成结构性优势。
二、功率军备竞赛的物理极限博弈
Colossus 2 将功率从 1GW 推升至 1.5GW,这一数字具有标志性意义。1GW 约等于一座中型核电站的发电输出,1.5GW 则接近美国约 100 万户家庭的峰值用电量。全球大多数国家级 AI 计算中心的总功率集中在 100MW 至 500MW 区间,xAI 的目标已将这些设施甩开一到两个数量级。这不仅意味着硬件密度的大幅提升,更暗示了 xAI 在散热、供电架构、芯片互连(chip-to-chip interconnect)等工程层面的极端投入。功率密度每提升一个台阶,冷却系统的能耗比、服务器的物理空间布局、供电稳定性等工程约束都会急剧恶化,1.5GW 的实现难度绝非线性增长。但与此同时,功率上限也构成了一个国家层面难以快速跟进的壁垒——新建 1GW 级数据中心通常需要 3-5 年的基础设施建设周期。
三、100 亿美元投资背后的商业逻辑
100 亿美元的投资规模(对应 00 亿$的表述)将 xAI 直接推入全球 AI 基础设施投资的第一梯队,与微软/OpenAI 的 1000 亿美元+投资规划、Meta 的资本支出扩张处于同一量级。但 xAI 的差异化在于其垂直整合路径:Musk 旗下拥有 Tesla 的硬件工程能力、SpaceX 的先进制造经验,以及 X 平台(Twitter)的真实世界数据源,这些生态资源可以以非市价方式输血超算建设。10T 参数模型的训练一旦成功,xAI 将具备在推理、医学、代码、科学研究等多个领域同时挑战 SOTA 的能力,其商业变现路径(企业 API、B2B 定制、Grok 消费级产品)也将随之快速拓宽。
值得关注
- 10T 参数模型的技术可行性验证:截至目前,GPT-4 被估计参数量约 1.8T,Google Gemini Ultra 约 1.5T,10T 参数意味着 5-6 倍的规模跃升。需关注 xAI 是否采用 MoE(Mixture of Experts)架构来降低实际激活参数——若为 MoE,10T 总参数但每 token 仅激活小部分,这在工程上是更可实现的路径。
- Imagine V2 的产品定位:Imagine 定位为 xAI 的多模态/图像生成模型,其 V2 版本并行训练的信号意味着 xAI 有意在文生图领域与 Midjourney、Adobe Firefly、DALL-E 正面竞争。
- 1.5GW 供电的实际落地进度:Musk 表述为"power scaling from 1GW to 1.5GW",需确认是已完成的升级还是规划目标。孟菲斯当地电网扩容、与田纳西河谷管理局(TVA)的合作进展是具体追踪指标。
- GPU 集群规模与 H100/H200 配比:7 个并行训练任务对 GPU 集群的调度能力提出极高要求,需关注 xAI 披露的 GPU 总数量以及是否引入英伟达 B100/B200 系列新一代 GPU。
- 其他玩家的应对策略:OpenAI 的下一轮融资规模、Google 对 Gemini 系列的后续规划、Meta 的 LLaMA 4 参数规模是否被迫上调,将成为判断算力军备竞赛是否进入新阶段的晴雨表。
信源行:
• 原文链接:@elonmusk on X (2026-04-08)
• 背景报道:
- The Verge - AI & Automation(持续追踪 xAI 算力建设进度)
- Wired - AI Coverage(算力军备竞赛专题)
- 36氪 AI 板块(xAI 在华语科技圈的跟进报道)