

新智元报说念

【新智元导读】开源Unlimited OCR!3B参数500M激活,连续读完40页不失忆。作家疑似DeepSeek出走的OCR中枢大神。
就在刚刚,百度闷声干了票大的!
最新开源的Unlimited OCR,总参数3B,现实激活仅500M——放在大模子时间险些是个零头。
但即是这个小到离谱的模子,在OmniDocBench v1.5上拿下93.23%的概括分,v1.6更是达到93.92%,径直刷新了端到端SOTA。
什么见识?v1.5同台竞技的选手里,235B的Qwen3-VL拿了89.15,72B的Qwen2.5-VL拿了87.02,不公布参数目的Gemini-2.5 Pro也只好88.03。激活参数不到它们零头的选手,反手把它们全甩了。
更离谱的是,它还干了件之前莫得OCR模子干成过的事:连续理解40多页文档,不失忆、不放慢,一次推理从第一页读到终末一页。
面前,模子和代码都已同步上线GitHub和HuggingFace。

GitHub:
https://github.com/baidu/Unlimited-OCR
Hugging Face:
https://huggingface.co/baidu/Unlimited-OCR
为什么所有模子都在「逐页失忆」
说到OCR,面前模子笨得让东说念主不测。
它们会把一件正本连贯的长程任务,硬生生切成几十个互不相干的小任务,再靠一个外部迂曲器把收尾拼凑缝起来。就像在跑一个for轮回,处置完一页就把牵记清空,再重新开动下一页。
能用,但本色上只是工程的权宜之策,离确切的智能还差着一大截。
究其原因在于,跟着输出越来越长,步伐详实力机制下的KV缓存像滚雪球一样疯涨——内存吃不用,速率越来越慢。
这才是逼着所有模子逐页处置、常常「失忆」的确切元凶。

但东说念主类抄书,从来不是这样干的。
咱们会保管一种承接的理解景色——眼睛盯着三个点:原书、刚写下的一小段、行将要写的下一个字。
早些写过的内容迟缓淡出脑海,最近的高下文用来盯住面前进程。
这种才气有个很妙的名字:「软淡忘」(soft forgetting)。
恰是靠着这种「该忘就忘」的法子,东说念主才能在极低理解负荷下扛住超长任务。比如,抄一册书、译几百页、承接转录数小时音频。
百度想作念的,即是把东说念主类这种「原文全局可见、牵记只保留最近几行」的详实力方式,搬进模子里。让OCR告别失忆。
R-SWA:把「抄书的精巧」写进详实力
顺着这个念念路,百度冷落了阐明里的中枢本事——参考滑动窗口详实力(Reference Sliding Window Attention,R-SWA),精准对应前边说的东说念主抄书时的详实力模式。
具体来说,每生成一个token,R-SWA都会去看一齐「参考token」,也即是整张图像的视觉token和指示词,保证模子永恒「看得见」完满原文。
但在输出这一侧,它只回看前边128个token,就像你抄书时只瞄一眼刚写的那几行。
落到兑现上,Unlimited OCR把所有详实力层全换成R-SWA,从而把KV缓存形成一个固定容量的队伍。
每生成一个新token,最老的阿谁就被挤出去,大小永恒不变。输出1万个token和10万个token,内存占用是迷漫一样的。

阐明中Flash Attention v3的延伸测试也一目了然。
DeepSeek OCR的步伐MHA跟着解码步数增多,每步耗时稳步攀升;而Unlimited OCR的R-SWA重新到尾一条平线,依样葫芦。

一次推理,读完几十页
这里还有一个至关报复的协作:DeepEncoder。
这个最初在DeepSeek OCR中登场的编码器,能把一张1024×1024的PDF页面压缩到只是256个视觉token,压缩率高达16倍。
况兼由于视觉token在R-SWA下不参与景色迂曲,因此无论文档多长,图像信息永恒清透露爽,不会随解码经由渐渐退化。
协作DeepEncoder的极致压缩和R-SWA的恒定缓存,Unlimited OCR在步伐的32K高下文里,一次前向推理就能转录数十页文档。
收尾表示,同期输入20页文档,转录与原文逐字比对的裁剪距离仅0.057;即便输入40页以上,依然限制在0.11以下,推测换取输出的Distinct-35高达97%——几十页连续转录,黑人中文字幕一区二区精品在线险些莫得复读。

在OmniDocBench v1.5上,Unlimited OCR拿到93.23%的概括得分,比DeepSeek OCR的87.01%向上6.22个百分点。
文本裁剪距离从0.073降到0.038,公式CDM从83.37飙到92.61,表格TEDS从84.97升至90.93。
在更新的v1.6上,相似以93.92%拿下端到端SOTA。

着力方面相似碾压。
输出达到6144个token时,Unlimited OCR的TPS是7847,DeepSeek OCR依然掉到5822,差距高达35%。

别忘了,这是一个500M激活的MoE小模子,在DeepSeek OCR基础上仅连续覆按4000步的收尾。
参加不算大,但恶果拔群——R-SWA对理解任务是一种确切的「免费午餐」。
九大文档类型的细分对比中,PPT、论文、杂志、报纸无一短板,Unlimited OCR在文本和阅读限定两项上全面特出DeepSeek OCR,且在七个类别中启程点DeepSeek OCR 2。
一位深奥的本事总监
跑分说完毕。但这份阐明确切有道理的场地,是行文方式。
从副标题的口吻到本事的叙事,读过DeepSeek那几份本事阐明的东说念主,几页下来就会认为似曾相识。
末尾还断言R-SWA是通用理解机制,而OCR只是第一站。
一篇OCR阐明,硬是写出了探索通用智能的滋味。
然后,是阿谁最让东说念主提神的场地——作家名单。
中枢孝敬者三位:Youyang Yin,Huanhuan Liu*(方法leader),YY†(本事总监)。
两个东说念主用本名,唯一本事总监挂了个两字母缩写。有点道理。
固然论文没多说,但GitHub致谢栏却把踪迹递了过来:Deepseek-OCR和Deepseek-OCR-2,排在致谢前两位。

顺着这条线往回找。DeepSeek OCR从一代到二代,中枢作家永恒三个东说念主:魏浩然、孙耀峰、李宇琨。吞并支小部队,从无到有。
本年4月DeepSeek发V4,魏浩然名字后头多了星号——已下野。
三个东说念主里,只好他依然公开离开。
再看经历。魏浩然,阶跃星辰出生,主导开拓了端到端OCR最早跑通的开源标杆GOT-OCR2.0。到DeepSeek后,更是一手搭起整条OCR线,DeepEncoder、MoE解码器,一代到二代都是他的团队。
才气、时辰线、签字方式,三条都对得上。
国内OCR圈不大,能作念出R-SWA这种级别冲破、还对DeepSeek OCR架构有「亲手作念过」级别熟悉的东说念主,一只手数得过来。魏浩然是其中最显眼的那一个。
如斯一来,YY大约率即是魏浩然了。
百度,依然能打
往日几年,PaddleOCR险些是国产OCR的代名词。开源、轻量,产业落地最广——从手机端到工作器到镶嵌式设立,掩盖了最主流的诈欺场景。
不外之前百度更侧重产业诈欺。踏实性、部署老本、场景掩盖是毅力,「用前沿盘考理念重塑OCR范式」这个标的并非其叙事重心。
而魏浩然作念的,碰巧即是这件事。
从GOT-OCR2.0的端到端一次理解,到DeepSeek-OCR的视觉压缩,再到R-SWA——先想透露OCR应该长什么样,再作念出来。
一边是产业落地最闇练、场景掩盖最广的工程底座;一边是端到端长程理解最前沿的盘考试吃。两者叠加,补皆的不单是一个本事短板,而是一种「既能大鸿沟铺开、又能不绝引颈范式」的完满才气。
百度本年把AIDU东说念主才操办升级为集团级方法、薪酬不设上限。对一个想把盘考作念到落地的东说念主来说,百度多年铺下来的产业底座,比单纯的高薪更有劝服力。
魏浩然淌若确切选了百度,逻辑就很透露——这里有最闇练的产业底座,也有把盘考推到前沿的空间和资源。
淌若他确切把R-SWA扩张到ASR和翻译,那百度手里执着的就不单是一个OCR模子,而是一套通用长程理解的本事框架。
论文瞻望里还留了一句:下一步,高下文窗口训到128K,构建prefill pool让模子学会自动翻页。
淌若作念到了,OCR就不再是识别一页翰墨,而是领会一整本书。
参考贵府:
https://github.com/baidu/Unlimited-OCR
https://huggingface.co/baidu/Unlimited-OCR