宝玉:Simon Willison 实测微软 VibeVoice-ASR
微软 1 月开源的 9B 参数语音转文字模型 VibeVoice-ASR 单次可处理 60 分钟音频。Simon Willison 在 M5 Max MacBook 跑 4-bit 量化版,转写 1 小时播客耗时 8 分 45 秒。
查看原文AI 资讯解读
核心要点
微软于今年1月开源的 VibeVoice-ASR 是参数量达 9B 的语音识别模型,单次最长可处理 60 分钟音频。知名开发者 Simon Willison 在搭载 M5 Max 芯片的 MacBook 上实测 4-bit 量化版本,转写 1 小时播客仅需 8 分 45 秒,展现出色的端侧运行能力。
深度解读
VibeVoice-ASR 的出现标志着开源语音识别领域正式进入千亿参数时代。此前工业级 ASR 模型多依赖云端 API,而 9B 规模模型成功落地端侧,意味着开发者和小型团队无需昂贵云服务即可获得高质量语音转写能力。
Simon Willison 的实测尤为值得关注:他使用 Apple Silicon MacBook 运行量化版本,而非专业 GPU 服务器。8 分 45 秒完成 1 小时音频的速度,意味着实时转写成为可能——甚至在录制过程中就能同步输出文本。这将大幅降低播客制作者、内容创作者的工作流成本。
从行业影响看,VibeVoice-ASR 可能重塑语音 AI 竞争格局:Whisper 此前是开源 ASR 的标杆,而微软此番开源显然意在抢占本地化部署的市场。随着 4-bit/8-bit 量化技术成熟,端侧运行大模型不再是实验性项目,而是可落地的工程选择。
值得关注
- 模型精度对比:9B 量化版与原始 Whisper 的字错误率(WER)差距有多大?是否在可接受范围内?
- 内存占用:M5 Max 运行 4-bit 量化版具体消耗多少内存?是否还有其他消费级硬件能流畅运行?
- 多语言支持:VibeVoice-ASR 对中文及其他小语种的识别效果如何?这将决定其在全球化应用中的竞争力。
本解读由 AI 自动生成,仅供参考。请以原文为准。