vLLM 背后的创业公司 · 2025年11月成立
"让 AI 部署像启动无服务器数据库一样简单"
UC Berkeley 博士生,vLLM 原始维护者之一。在 Ion Stoica 指导下从事分布式系统研究,主导 vLLM 的工程化和社区运营。对全球 AI 算力短缺问题有深刻洞察。
PagedAttention 论文第一作者,vLLM 技术负责人。核心算法创新者,将操作系统虚拟内存思想引入 LLM 推理,实现突破性性能提升。
清华大学特等奖学金获得者,清华软件学院博士(导师:龙明盛教授)。在伯克利访学期间成为 vLLM 核心提交者,主导分布式推理架构设计。研究领域涵盖迁移学习、深度学习,Google Scholar 引用 2700+。
UC Berkeley 教授,SkyLab 主任。连续成功创业者:Databricks(Apache Spark 商业化,估值$430亿)、Anyscale(Ray 框架)、Conviva 联合创始人。ACM Fellow,福布斯罗马尼亚首富榜第3(净资产$27亿)。
| 姓名 | 职位 | 关键贡献 |
|---|---|---|
| Roger Wang | 联合创始人 | vLLM 核心团队成员,工程架构 |
| Joseph Gonzalez | 联合创始人 | 伯克利计算机系教授,GraphLab/PowerGraph 作者 |
| Zhuohan Li | 核心成员 | vLLM 原始论文合著者,Alpa 项目核心成员 |
vLLM 是 a16z 2023年首个 AI 开源资助项目。真格基金 2024年7月即开始捐赠支持 vLLM 社区发展,此次作为首轮投资方参与种子轮。
Ion Stoica 的参与延续了伯克利 → 开源 → 创业的成功路径(Spark→Databricks, Ray→Anyscale)。
动态批处理
请求优先级调度
KV Cache 分页管理
显存动态分配
优化 CUDA Kernels
Token 生成
核心创新:借鉴操作系统虚拟内存的 Paging 机制,将 KV Cache 分割成固定大小的"块",可存储在非连续物理内存中。
解决痛点:传统方案将每个会话的 KV Cache 作为一个巨大连续块存储,导致 60%-80% 的显存浪费。PagedAttention 将浪费率降至 4% 以下。
性能提升:相比 HuggingFace Transformers 吞吐量提升高达 24 倍,相比 TGI 提升 3.5 倍。
动态连续批处理,无需等待固定批次,显著降低延迟
投机解码加速推理,支持草稿模型预测验证
前缀缓存复用,对话场景性能大幅提升
| 框架 | 吞吐量 | TTFT 延迟 | 部署难度 | 最佳场景 |
|---|---|---|---|---|
| vLLM | 120-160 req/s | 50-80ms | 1-2 天 | 高并发场景、快速迭代 |
| TensorRT-LLM | 180-220 req/s | 35-50ms | 1-2 周 | 极致性能、NVIDIA 专用 |
| HF TGI | 100-140 req/s | 60-90ms | 1-2 天 | HuggingFace 生态、长上下文 |
vLLM 的独特之处不在于原始速度,而在于它在并发扩展时的表现——从 10 用户扩展到 100 用户,延迟始终保持稳定。
在超过 20 万 token 的长提示词场景,TGI v3 可实现 13 倍加速(27.5s → 2s),内存占用降低 3 倍。但 vLLM 在通用高并发场景仍占优势。
AI 购物助手,2025年服务 2.5 亿用户。采用多节点架构 + vLLM 连续批处理实现低延迟。
支撑 50+ 生成式 AI 用例,包括 LinkedIn Hiring Assistant。
全球游戏平台,利用 vLLM 投机解码处理语言任务。
AI 角色对话平台,高并发场景下的稳定推理。
伯克利三人团队从 Alpa 项目起步,发现 LLM 推理显存浪费严重(60%-80%),开始探索优化方案
vLLM 项目启动开发
正式开源 vLLM,发布 PagedAttention 论文(SOSP'23),成为 a16z 首个 AI 开源资助项目
GitHub Stars 达 14K,贡献者 190 人,月下载 6K
真格基金捐赠支持,Red Hat 收购 Neural Magic(vLLM 量化技术合作方)
GitHub Stars 达 32.6K(2.3x),贡献者 740 人(3.8x),月下载 27K(4.5x),成为开源 AI 推理事实标准
Inferact 公司成立
官宣 1.5 亿美元种子轮,估值 8 亿美元,AWS 等头部云厂商已在测试其推理平台
AI 行业未来面临的最大挑战不是构建新模型,而是如何以低成本、高可靠性运行现有模型。目前用于大模型训练的 AI 集群,将在六个月内完全转向推理。
根据 McKinsey 2025 AI 调查,虽然 Agentic AI 采用仍处于早期,但 74% 的组织计划在 2026 年增加相关预算。推理成本已超过训练成本成为 AI 基础设施的主要支出。
全球 AI 算力供不应求,推理优化成为降本增效的关键
开源模型占据越来越大份额,需要统一高效的推理基础设施
AMD、Intel、国产芯片崛起,跨硬件统一推理层需求迫切