大模型 @vllm_project 2026-06-28

百度 Unlimited-OCR 接入 vLLM：一次解析整本书

百度 Unlimited-OCR 现已在 vLLM 运行，基于 Reference Sliding Window Attention（R-SWA）实现 KV cache 恒定，可一次性解析整本书——输出再长也不爆显存、不降速。

解读生成中或暂时不可用，请稍后刷新重试，或直接查看原文。