Inferact

vLLM 背后的创业公司 · 2025年11月成立

"让 AI 部署像启动无服务器数据库一样简单"

$1.5亿
种子轮融资
$8亿
公司估值
66K+
GitHub Stars
2000+
贡献者
27K
月下载量

核心创始团队

Simon Mo

CEO

UC Berkeley 博士生,vLLM 原始维护者之一。在 Ion Stoica 指导下从事分布式系统研究,主导 vLLM 的工程化和社区运营。对全球 AI 算力短缺问题有深刻洞察。

Woosuk Kwon

CTO

PagedAttention 论文第一作者,vLLM 技术负责人。核心算法创新者,将操作系统虚拟内存思想引入 LLM 推理,实现突破性性能提升。

游凯超 (Kaichao You)

首席科学家

清华大学特等奖学金获得者,清华软件学院博士(导师:龙明盛教授)。在伯克利访学期间成为 vLLM 核心提交者,主导分布式推理架构设计。研究领域涵盖迁移学习、深度学习,Google Scholar 引用 2700+。

Ion Stoica

联合创始人 / 董事

UC Berkeley 教授,SkyLab 主任。连续成功创业者:Databricks(Apache Spark 商业化,估值$430亿)、Anyscale(Ray 框架)、Conviva 联合创始人。ACM Fellow,福布斯罗马尼亚首富榜第3(净资产$27亿)。

姓名 职位 关键贡献
Roger Wang 联合创始人 vLLM 核心团队成员,工程架构
Joseph Gonzalez 联合创始人 伯克利计算机系教授,GraphLab/PowerGraph 作者
Zhuohan Li 核心成员 vLLM 原始论文合著者,Alpa 项目核心成员

投资方阵容

领投 (Lead)

Andreessen Horowitz (a16z) Lightspeed Venture Partners

跟投

Sequoia Capital 红杉资本 Altimeter Capital Redpoint Ventures 真格基金 ZhenFund Databricks Ventures UC Berkeley Chancellor's Fund

融资背景

vLLM 是 a16z 2023年首个 AI 开源资助项目。真格基金 2024年7月即开始捐赠支持 vLLM 社区发展,此次作为首轮投资方参与种子轮。

Ion Stoica 的参与延续了伯克利 → 开源 → 创业的成功路径(Spark→Databricks, Ray→Anyscale)。

核心技术:PagedAttention

vLLM 架构示意

Scheduler

动态批处理
请求优先级调度

PagedAttention Engine

KV Cache 分页管理
显存动态分配

Execution Engine

优化 CUDA Kernels
Token 生成

技术原理

核心创新:借鉴操作系统虚拟内存的 Paging 机制,将 KV Cache 分割成固定大小的"块",可存储在非连续物理内存中。

解决痛点:传统方案将每个会话的 KV Cache 作为一个巨大连续块存储,导致 60%-80% 的显存浪费。PagedAttention 将浪费率降至 4% 以下。

性能提升:相比 HuggingFace Transformers 吞吐量提升高达 24 倍,相比 TGI 提升 3.5 倍。

关键技术特性

Continuous Batching

动态连续批处理,无需等待固定批次,显著降低延迟

Speculative Decoding

投机解码加速推理,支持草稿模型预测验证

Prefix Caching

前缀缓存复用,对话场景性能大幅提升

推理框架竞品对比

框架 吞吐量 TTFT 延迟 部署难度 最佳场景
vLLM 120-160 req/s 50-80ms 1-2 天 高并发场景、快速迭代
TensorRT-LLM 180-220 req/s 35-50ms 1-2 周 极致性能、NVIDIA 专用
HF TGI 100-140 req/s 60-90ms 1-2 天 HuggingFace 生态、长上下文

vLLM 的独特之处不在于原始速度,而在于它在并发扩展时的表现——从 10 用户扩展到 100 用户,延迟始终保持稳定。

— BentoML 基准测试报告

TGI v3 长上下文优势

在超过 20 万 token 的长提示词场景,TGI v3 可实现 13 倍加速(27.5s → 2s),内存占用降低 3 倍。但 vLLM 在通用高并发场景仍占优势。

生产环境标杆客户

Amazon Rufus

AI 购物助手,2025年服务 2.5 亿用户。采用多节点架构 + vLLM 连续批处理实现低延迟。

2.5亿 用户

LinkedIn

支撑 50+ 生成式 AI 用例,包括 LinkedIn Hiring Assistant。

TPOT 提升 7%

Roblox

全球游戏平台,利用 vLLM 投机解码处理语言任务。

延迟降低 50%

Character.ai

AI 角色对话平台,高并发场景下的稳定推理。

40亿 tokens/周

更多生产用户

Meta Google AWS IBM NVIDIA Red Hat

发展历程

2022

伯克利三人团队从 Alpa 项目起步,发现 LLM 推理显存浪费严重(60%-80%),开始探索优化方案

2023.02

vLLM 项目启动开发

2023.06

正式开源 vLLM,发布 PagedAttention 论文(SOSP'23),成为 a16z 首个 AI 开源资助项目

2024.01

GitHub Stars 达 14K,贡献者 190 人,月下载 6K

2024.07

真格基金捐赠支持,Red Hat 收购 Neural Magic(vLLM 量化技术合作方)

2024.12

GitHub Stars 达 32.6K(2.3x),贡献者 740 人(3.8x),月下载 27K(4.5x),成为开源 AI 推理事实标准

2025.11

Inferact 公司成立

2026.01

官宣 1.5 亿美元种子轮,估值 8 亿美元,AWS 等头部云厂商已在测试其推理平台

商业化战略

开源 + 商业双轨模式

  • vLLM 保持完全开源,所有改进回馈社区
  • 参考 MongoDB/Redis 成功路径
  • 免费核心 + 专有服务层叠加
  • 企业级支持、托管部署、专业扩展

产品方向

  • Serverless 推理服务:自动化基础设施配置、更新、运维
  • 多硬件支持:不限于 NVIDIA,扩展 AMD、Intel、国产芯片
  • 企业级特性:SLA 保障、私有化部署、安全合规
  • 性能优化:持续发布新架构支持和性能提升

AI 行业未来面临的最大挑战不是构建新模型,而是如何以低成本、高可靠性运行现有模型。目前用于大模型训练的 AI 集群,将在六个月内完全转向推理。

— Simon Mo, Inferact CEO

市场前景与行业背景

AI 推理市场趋势

根据 McKinsey 2025 AI 调查,虽然 Agentic AI 采用仍处于早期,但 74% 的组织计划在 2026 年增加相关预算。推理成本已超过训练成本成为 AI 基础设施的主要支出。

算力瓶颈

全球 AI 算力供不应求,推理优化成为降本增效的关键

开源主导

开源模型占据越来越大份额,需要统一高效的推理基础设施

多样化硬件

AMD、Intel、国产芯片崛起,跨硬件统一推理层需求迫切

竞争格局

直接竞争

  • NVIDIA TensorRT-LLM(深度绑定 NVIDIA 生态)
  • HuggingFace TGI(HF 生态整合优势)
  • Anyscale(Ray Serve,Ion Stoica 另一公司)

Inferact 护城河

  • 66K+ Stars,事实标准地位
  • 2000+ 贡献者生态
  • 硬件中立,不绑定特定厂商
  • 核心团队技术深度 + Ion Stoica 创业经验

参考来源