【GitHub】Unlimited-OCR:用 R-SWA 注意力机制,把 OCR 推进 “一口气“ 解析数十页文档时代

发布时间:2026/6/30 14:17:38
【GitHub】Unlimited-OCR:用 R-SWA 注意力机制,把 OCR 推进 “一口气“ 解析数十页文档时代 论文:Unlimited OCR Works (arXiv:2606.23050)代码:github.com/baidu/Unlimited-OCR模型:百度 PaddlePaddle 团队出品 | 3B MoE (激活 500M) | MIT LicenseTag:R-SWA · One-shot Long-horizon OCR · Constant KV Cache · DeepSeek-OCR 继承者一、介绍2025 年,DeepSeek-OCR 用 “视觉压缩 + LLM 解码” 的范式把 OCR 带到了一个新高度——一张 A100 一天能跑 20 万页文档。但问题也随之而来:随着解码 token 数增长,KV Cache 线性膨胀,推理越来越慢。直观感受就是:翻一页快,翻十页开始卡,翻五十页直接 OOM。这跟人类抄书的行为完全不一样——人抄一页书,不会因为抄到第 50 页就变慢。你的大脑不需要在翻到第 50 页时还"回忆"第 2 页写过的每一个字。百度 PaddlePaddle 团队抓住了这个直觉,提出了Unlimited-OCR/