刚刚，百度开源拿下各人第一！作家疑似DeepSeek出走大神

你的位置：境澜设计有限公司 > 产品中心 >

产品中心

刚刚，百度开源拿下各人第一！作家疑似DeepSeek出走大神

发布日期：2026-06-23 16:30 点击次数：169

新智元报说念
【新智元导读】开源Unlimited OCR！3B参数500M激活，连续读完40页不失忆。作家疑似DeepSeek出走的OCR中枢大神。
就在刚刚，百度闷声干了票大的！
最新开源的Unlimited OCR，总参数3B，现实激活仅500M——放在大模子时间险些是个零头。
但即是这个小到离谱的模子，在OmniDocBench v1.5上拿下93.23%的概括分，v1.6更是达到93.92%，径直刷新了端到端SOTA。
什么见识？v1.5同台竞技的选手里，235B的Qwen3-VL拿了89.15，72B的Qwen2.5-VL拿了87.02，不公布参数目的Gemini-2.5 Pro也只好88.03。激活参数不到它们零头的选手，反手把它们全甩了。
更离谱的是，它还干了件之前莫得OCR模子干成过的事：连续理解40多页文档，不失忆、不放慢，一次推理从第一页读到终末一页。
面前，模子和代码都已同步上线GitHub和HuggingFace。
GitHub：
https://github.com/baidu/Unlimited-OCR
Hugging Face：
https://huggingface.co/baidu/Unlimited-OCR
为什么所有模子都在「逐页失忆」
说到OCR，面前模子笨得让东说念主不测。
它们会把一件正本连贯的长程任务，硬生生切成几十个互不相干的小任务，再靠一个外部迂曲器把收尾拼凑缝起来。就像在跑一个for轮回，处置完一页就把牵记清空，再重新开动下一页。
能用，但本色上只是工程的权宜之策，离确切的智能还差着一大截。
究其原因在于，跟着输出越来越长，步伐详实力机制下的KV缓存像滚雪球一样疯涨——内存吃不用，速率越来越慢。
这才是逼着所有模子逐页处置、常常「失忆」的确切元凶。
但东说念主类抄书，从来不是这样干的。
咱们会保管一种承接的理解景色——眼睛盯着三个点：原书、刚写下的一小段、行将要写的下一个字。
早些写过的内容迟缓淡出脑海，最近的高下文用来盯住面前进程。
这种才气有个很妙的名字：「软淡忘」（soft forgetting）。
恰是靠着这种「该忘就忘」的法子，东说念主才能在极低理解负荷下扛住超长任务。比如，抄一册书、译几百页、承接转录数小时音频。
百度想作念的，即是把东说念主类这种「原文全局可见、牵记只保留最近几行」的详实力方式，搬进模子里。让OCR告别失忆。
R-SWA：把「抄书的精巧」写进详实力
顺着这个念念路，百度冷落了阐明里的中枢本事——参考滑动窗口详实力（Reference Sliding Window Attention，R-SWA），精准对应前边说的东说念主抄书时的详实力模式。
具体来说，每生成一个token，R-SWA都会去看一齐「参考token」，也即是整张图像的视觉token和指示词，保证模子永恒「看得见」完满原文。
但在输出这一侧，它只回看前边128个token，就像你抄书时只瞄一眼刚写的那几行。
落到兑现上，Unlimited OCR把所有详实力层全换成R-SWA，从而把KV缓存形成一个固定容量的队伍。
每生成一个新token，最老的阿谁就被挤出去，大小永恒不变。输出1万个token和10万个token，内存占用是迷漫一样的。
阐明中Flash Attention v3的延伸测试也一目了然。
DeepSeek OCR的步伐MHA跟着解码步数增多，每步耗时稳步攀升；而Unlimited OCR的R-SWA重新到尾一条平线，依样葫芦。
一次推理，读完几十页
这里还有一个至关报复的协作：DeepEncoder。
这个最初在DeepSeek OCR中登场的编码器，能把一张1024×1024的PDF页面压缩到只是256个视觉token，压缩率高达16倍。
况兼由于视觉token在R-SWA下不参与景色迂曲，因此无论文档多长，图像信息永恒清透露爽，不会随解码经由渐渐退化。
协作DeepEncoder的极致压缩和R-SWA的恒定缓存，Unlimited OCR在步伐的32K高下文里，一次前向推理就能转录数十页文档。
收尾表示，同期输入20页文档，转录与原文逐字比对的裁剪距离仅0.057；即便输入40页以上，依然限制在0.11以下，推测换取输出的Distinct-35高达97%——几十页连续转录，黑人中文字幕一区二区精品在线险些莫得复读。
在OmniDocBench v1.5上，Unlimited OCR拿到93.23%的概括得分，比DeepSeek OCR的87.01%向上6.22个百分点。
文本裁剪距离从0.073降到0.038，公式CDM从83.37飙到92.61，表格TEDS从84.97升至90.93。
在更新的v1.6上，相似以93.92%拿下端到端SOTA。
着力方面相似碾压。
输出达到6144个token时，Unlimited OCR的TPS是7847，DeepSeek OCR依然掉到5822，差距高达35%。
别忘了，这是一个500M激活的MoE小模子，在DeepSeek OCR基础上仅连续覆按4000步的收尾。
参加不算大，但恶果拔群——R-SWA对理解任务是一种确切的「免费午餐」。
九大文档类型的细分对比中，PPT、论文、杂志、报纸无一短板，Unlimited OCR在文本和阅读限定两项上全面特出DeepSeek OCR，且在七个类别中启程点DeepSeek OCR 2。
一位深奥的本事总监
跑分说完毕。但这份阐明确切有道理的场地，是行文方式。
从副标题的口吻到本事的叙事，读过DeepSeek那几份本事阐明的东说念主，几页下来就会认为似曾相识。
末尾还断言R-SWA是通用理解机制，而OCR只是第一站。
一篇OCR阐明，硬是写出了探索通用智能的滋味。
然后，是阿谁最让东说念主提神的场地——作家名单。
中枢孝敬者三位：Youyang Yin，Huanhuan Liu*（方法leader），YY†（本事总监）。
两个东说念主用本名，唯一本事总监挂了个两字母缩写。有点道理。
固然论文没多说，但GitHub致谢栏却把踪迹递了过来：Deepseek-OCR和Deepseek-OCR-2，排在致谢前两位。
顺着这条线往回找。DeepSeek OCR从一代到二代，中枢作家永恒三个东说念主：魏浩然、孙耀峰、李宇琨。吞并支小部队，从无到有。
本年4月DeepSeek发V4，魏浩然名字后头多了星号——已下野。
三个东说念主里，只好他依然公开离开。
再看经历。魏浩然，阶跃星辰出生，主导开拓了端到端OCR最早跑通的开源标杆GOT-OCR2.0。到DeepSeek后，更是一手搭起整条OCR线，DeepEncoder、MoE解码器，一代到二代都是他的团队。
才气、时辰线、签字方式，三条都对得上。
国内OCR圈不大，能作念出R-SWA这种级别冲破、还对DeepSeek OCR架构有「亲手作念过」级别熟悉的东说念主，一只手数得过来。魏浩然是其中最显眼的那一个。
如斯一来，YY大约率即是魏浩然了。
百度，依然能打
往日几年，PaddleOCR险些是国产OCR的代名词。开源、轻量，产业落地最广——从手机端到工作器到镶嵌式设立，掩盖了最主流的诈欺场景。
不外之前百度更侧重产业诈欺。踏实性、部署老本、场景掩盖是毅力，「用前沿盘考理念重塑OCR范式」这个标的并非其叙事重心。
而魏浩然作念的，碰巧即是这件事。
从GOT-OCR2.0的端到端一次理解，到DeepSeek-OCR的视觉压缩，再到R-SWA——先想透露OCR应该长什么样，再作念出来。
一边是产业落地最闇练、场景掩盖最广的工程底座；一边是端到端长程理解最前沿的盘考试吃。两者叠加，补皆的不单是一个本事短板，而是一种「既能大鸿沟铺开、又能不绝引颈范式」的完满才气。
百度本年把AIDU东说念主才操办升级为集团级方法、薪酬不设上限。对一个想把盘考作念到落地的东说念主来说，百度多年铺下来的产业底座，比单纯的高薪更有劝服力。
魏浩然淌若确切选了百度，逻辑就很透露——这里有最闇练的产业底座，也有把盘考推到前沿的空间和资源。
淌若他确切把R-SWA扩张到ASR和翻译，那百度手里执着的就不单是一个OCR模子，而是一套通用长程理解的本事框架。
论文瞻望里还留了一句：下一步，高下文窗口训到128K，构建prefill pool让模子学会自动翻页。
淌若作念到了，OCR就不再是识别一页翰墨，而是领会一整本书。
参考贵府：
https://github.com/baidu/Unlimited-OCR
https://huggingface.co/baidu/Unlimited-OCR
- 戈任
- 拿下
- 开园
- 百度
- 刚刚

上一篇：自救的 One SONY 运筹帷幄，让你老到的 SONY 不见了？
下一篇：没有了

产品中心

热点资讯

推荐资讯