← 返回资讯
研究 @karpathy 2026-03-05

nanochat 单节点 8×H100 仅需 2 小时训练 GPT-2

nanochat 项目在单个 8×H100 节点上将 GPT-2 训练时间从约 3 小时缩短至 2 小时,最大提升来自将数据集从 FineWeb-edu 切换到 NVIDIA ClimbMix。

查看原文
本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。