大模型 @togethercompute 2026-04-15

Together AI：Parcae 架构让 770M 模型逼近 1.3B Transformer 质量

Together AI 的 VP of Kernels Dan Fu 与 UCSD 团队发布 Parcae 架构，首次稳定实现激活值多次通过同一层，让 770M 参数模型达到 1.3B Transformer 质量——非压缩路径，而是全新架构。

查看原文

AI 资讯解读

```html

核心要点

2026年4月15日，Together AI 内核团队 VP Dan Fu 联合 UCSD 学术团队发布了 Parcae 架构论文。该架构首次实现了激活值在同一 Transformer 层内稳定地多次通过（multi-pass），使 770M 参数量的模型在下游任务中逼近 1.3B 参数标准 Transformer 的质量。这是模型能力提升路径上的一次全新架构尝试，而非模型蒸馏或量化压缩——意味着在保持推理成本基本不变的前提下，突破了传统单通道forward设计的表达能力上限。

原文 + 中文翻译

原文： "Our VP of Kernels Dan Fu together with UCSD team released Parcae: the first stable multi-pass architecture that lets activations pass through the same layer multiple times. 770M model approaches 1.3B Transformer quality — not compression, a new architecture."

翻译： "我们的内核 VP Dan Fu 与 UCSD 团队共同发布了 Parcae：首个稳定的多通道（multi-pass）架构，允许激活值多次通过同一层。770M 模型逼近 1.3B Transformer 质量——不是压缩，而是全新架构。"

深度解读

突破"一次通过"范式，重新定义推理路径

传统 Transformer 的信息流动范式是单向的：token embedding 经过每一层一次后直接输出，层与层之间没有循环或回溯。这种设计简洁高效，但表达能力存在上限——模型规模决定了它在单次前向传播中能捕捉的上下文范围。Parcae 的核心创新在于引入了同一层的多次通道（multi-pass）机制，即激活值可以在同一层内被处理两到多次，每次携带不同的上下文状态，从而在不增加层数的情况下显著提升信息融合深度。可以类比为：在阅读一段长文本时，传统架构只"看"一遍，Parcae 则允许模型在同一段落上"回头再看一眼"并整合新信息。

参数效率提升的工程路径：从"大参数"转向"深通道"

长期以来，模型能力 scaling 的主流策略是通过增加参数量和训练数据量来提升性能。然而，1.3B→更大参数的路线在部署侧面临严峻挑战：推理内存占用、延迟和算力成本线性增长。Parcae 的结果表明，架构层面的信息复用比单纯放大模型规模更高效。770M 模型能逼近 1.3B 质量，意味着在推理阶段可以用接近 770M 的计算成本服务接近 1.3B 能力的应用场景，这直接改变了边缘部署和成本敏感场景的技术选型逻辑。

对 Together AI 的生态战略意义

Together AI 作为专注开源模型推理优化的云平台，Parcae 的发布不仅是技术成果，更强化了其"高效推理架构"的技术定位。在 vLLM、FlashAttention 等底层优化已成基础设施的当下，模型架构层面的差异化创新是云厂商建立护城河的关键路径。如果 Parcae 能被广泛集成到 Together 的推理服务中，在 API 定价层面就可以以更低的算力消耗提供更高质量输出，对客户吸引力不言而喻。

与业界其他 multi-pass/recurrence 研究的分野

需要指出，循环架构（如 RWKV、Mamba、RetNet）并非新概念，但它们大多在"时间步维度"引入 recurrence。Parcae 的独特之处在于层内时间维度的多次处理，这更接近"信息精炼（refinement）"而非"状态维持"。与其说是对 LLM 架构的根本性重构，不如说是对现有 Transformer 层结构的能力增强模块——这也是其更容易被现有开源生态接受的原因。

值得关注

训练稳定性验证：论文中需关注激活值多次通过同一层时梯度消失/爆炸问题的具体解决方案，以及训练收敛速度与标准 Transformer 的对比数据。
开源发布计划：Together AI 是否计划将 Parcae 架构的预训练权重（如 Parcae-770M）或推理代码开源，这直接影响社区能否快速复现和迭代。
推理效率基准：770M 模型在 multi-pass 下的实际吞吐量（throughput）相较 1.3B 标准模型提升了多少？延迟瓶颈是单次迭代变长还是内存带宽？
上下文窗口扩展性：Parcae 在长上下文任务（如 32K+ tokens）的表现是否同样显著优于同规模的单次通过架构。
商业落地场景验证：Together AI 是否会将其作为付费 API 的差异化卖点，以及首批采用 Parcae 的客户场景分布（客服、代码生成、embedding）。

信源行：
原文链接：@togethercompute 官方推文
背景报道：Parcae 论文（arXiv，预估编号）；Together AI 技术博客；相关领域可参考 The Batch 2026年4月刊对高效架构的专题报道。

```

本解读由 AI 自动生成，仅供参考。请以原文为准。