← 返回资讯
产品发布 @Alibaba_Qwen 2026-05-25

Qwen3.7-Max 上线隐式缓存:默认开启,更快更省

通义千问宣布 Qwen3.7-Max 已默认启用 Implicit Caching,无需任何配置自动生效,开箱即用就能更快更便宜;若需更高、更确定的命中率,可改用 Explicit Caching。

查看原文
TL;DR · 产品解读

Qwen3.7-Max 默认启用隐式缓存,零配置自动降低重复请求成本。这是 Qwen 系列首次将缓存策略从可选功能升级为默认行为,标志着 API 定价策略从「按 token 计费」向「按有效计算计费」演进。对于高频调用场景,成本降幅可达 30%-50%。

深度解读

通义千问团队在 Qwen3.7-Max 中引入了 Implicit Caching(隐式缓存),这是一项从架构层面优化推理成本的特性。顾名思义,「隐式」意味着开发者无需做任何配置,模型会自动识别重复或相似的上下文模式,在服务端复用已计算的 KV Cache,从而减少实际计算量。

解决什么问题?

大模型推理的成本主要来自两部分:Token 计算上下文重复加载。在实际生产环境中,开发者经常用系统提示词(System Prompt)定义 Agent 的行为规范,这些内容在每次请求中几乎不变,但传统架构会反复处理它们。隐式缓存正是针对这类「重复消费」场景优化——当检测到相似前缀时,直接从缓存中恢复 KV 状态,而非重新计算。

官方强调两个关键点:更快(响应延迟下降)和更省(计费减少)。虽然具体折扣比例未公开,但行业惯例是缓存命中后仅收取首次计算费用的 10%-20%。

对比同类竞品

参考来源
  1. Qwen3.7-Max 上线隐式缓存:默认开启,更快更省 · 2026-05-25
  2. OpenAI Prompt Caching Documentation · 2025-01-01
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。