← 返回资讯
产品发布 @vllm_project 2026-03-24

vLLM:全新 Model Runner V2 重构执行核心,高吞吐场景性能大幅提升

vLLM 从零重建执行核心,推出 Model Runner V2,采用模块化设计、GPU 原生输入准备、异步零同步和 Triton 原生采样器,在高吞吐和推测解码场景下性能显著提升,API 无变化。

查看原文
本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。