Together AI:Parcae 架构让 770M 模型逼近 1.3B Transformer 质量
Together AI 的 VP of Kernels Dan Fu 与 UCSD 团队发布 Parcae 架构,首次稳定实现激活值多次通过同一层,让 770M 参数模型达到 1.3B Transformer 质量——非压缩路径,而是全新架构。
查看原文核心要点
2026年4月15日,Together AI 内核团队 VP Dan Fu 联合 UCSD 学术团队发布了 Parcae 架构论文。该架构首次实现了激活值在同一 Transformer 层内稳定地多次通过(multi-pass),使 770M 参数量的模型在下游任务中逼近 1.3B 参数标准 Transformer 的质量。这是模型能力提升路径上的一次全新架构尝试,而非模型蒸馏或量化压缩——意味着在保持推理成本基本不变的前提下,突破了传统单通道forward设计的表达能力上限。
原文 + 中文翻译
原文: "Our VP of Kernels Dan Fu together with UCSD team released Parcae: the first stable multi-pass architecture that lets activations pass through the same layer multiple times. 770M model approaches 1.3B Transformer quality — not compression, a new architecture."
翻译: "我们的内核 VP Dan Fu 与 UCSD 团队共同发布了 Parcae:首个稳定的多通道(multi-pass)架构,允许激活值多次通过同一层。770M 模型逼近 1.3B Transformer 质量——不是压缩,而是全新架构。"
深度解读
突破"一次通过"范式,重新定义推理路径
传统 Transformer 的信息流动范式是单向的:token embedding 经过每一层一次后直接输出,层与层之间没有循环或回溯。这种设计简洁高效,但表达能力存在上限——模型规模决定了它在单次前向传播中能捕捉的上下文范围。Parcae 的核心创新在于引入了同一层的多次通道(multi-pass)机制,即激活值可以在同一层内被处理两到多次,每次携带不同的上下文状态,从而在不增加层数的情况下显著提升信息融合深度。可以类比为:在阅读一段长文本时,传统架构只"看"一遍,Parcae 则允许模型在同一段落上"回头再看一眼"并整合新信息。
参数效率提升的工程路径:从"大参数"转向"深通道"
长期以来,模型能力 scaling 的主流策略是通过增加参数量和训练数据量来提升性能。然而,1.3B→更大参数的路线在部署侧面临严峻挑战:推理内存占用、延迟和算力成本线性增长。Parcae 的结果表明,架构层面的信息复用比单纯放大模型规模更高效。770M 模型能逼近 1.3B 质量,意味着在推理阶段可以用接近 770M 的计算成本服务接近 1.3B 能力的应用场景,这直接改变了边缘部署和成本敏感场景的技术选型逻辑。
对 Together AI 的生态战略意义
Together AI 作为专注开源模型推理优化的云平台,Parcae 的发布不仅是技术成果,更强化了其"高效推理架构"的技术定位。在 vLLM、FlashAttention 等底层优化已成基础设施的当下,模型架构层面的差异化创新是云厂商建立护城河的关键路径。如果 Parcae 能被广泛集成到 Together 的推理服务中,在 API 定价层面就可以以更低的算力消耗提供更高质量输出,对客户吸引力不言而喻。
与业界其他 multi-pass/recurrence 研究的分野
需要指出,循环架构(如 RWKV、Mamba、RetNet)并非新概念,但它们大多在"时间步维度"引入 recurrence。Parcae 的独特之处在于层内时间维度的多次处理,这更接近"信息精炼(refinement)"而非"状态维持"。与其说是对 LLM 架构的根本性重构,不如说是对现有 Transformer 层结构的能力增强模块——这也是其更容易被现有开源生态接受的原因。
值得关注
- 训练稳定性验证:论文中需关注激活值多次通过同一层时梯度消失/爆炸问题的具体解决方案,以及训练收敛速度与标准 Transformer 的对比数据。
- 开源发布计划:Together AI 是否计划将 Parcae 架构的预训练权重(如 Parcae-770M)或推理代码开源,这直接影响社区能否快速复现和迭代。
- 推理效率基准:770M 模型在 multi-pass 下的实际吞吐量(throughput)相较 1.3B 标准模型提升了多少?延迟瓶颈是单次迭代变长还是内存带宽?
- 上下文窗口扩展性:Parcae 在长上下文任务(如 32K+ tokens)的表现是否同样显著优于同规模的单次通过架构。
- 商业落地场景验证:Together AI 是否会将其作为付费 API 的差异化卖点,以及首批采用 Parcae 的客户场景分布(客服、代码生成、embedding)。
信源行:
原文链接:@togethercompute 官方推文
背景报道:Parcae 论文(arXiv,预估编号);Together AI 技术博客;相关领域可参考 The Batch 2026年4月刊对高效架构的专题报道。