百度 Unlimited-OCR 接入 vLLM:一次解析整本书
百度 Unlimited-OCR 现已在 vLLM 运行,基于 Reference Sliding Window Attention(R-SWA)实现 KV cache 恒定,可一次性解析整本书——输出再长也不爆显存、不降速。
查看原文解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。
百度 Unlimited-OCR 现已在 vLLM 运行,基于 Reference Sliding Window Attention(R-SWA)实现 KV cache 恒定,可一次性解析整本书——输出再长也不爆显存、不降速。
查看原文