← 返回资讯
大模型 @vllm_project 2026-06-28

百度 Unlimited-OCR 接入 vLLM:一次解析整本书

百度 Unlimited-OCR 接入 vLLM:一次解析整本书

百度 Unlimited-OCR 现已在 vLLM 运行,基于 Reference Sliding Window Attention(R-SWA)实现 KV cache 恒定,可一次性解析整本书——输出再长也不爆显存、不降速。

查看原文
解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。