全球OCR新王来自中国开源!GitHub狂揽73300+Star

  西风发自凹非寺

  量子位 | 公众号 QbitAI

  GitHub OCR 项目之王刚刚历史性易主。

  诞生近 40 年、统治 OCR 领域的技术标杆 Tesseract OCR,被中国开源拉下王座——百度文心衍生模型 PaddleOCR 以 73300+Star,正式登顶 GitHub 全球 OCR 项目榜,终结谷歌 Tesseract OCR 长期霸榜局面。

  这也是中国开源在这一基础赛道上,首次拿下全球 Star 第一。

  不仅如此,在 Hugging Face 上,PaddleOCR 也长期处于 OCR 与文档解析领域的头部位置,已经成为全球开发者的必备工具。

  消息一出,开发者社区瞬间炸开了锅。

  从“跟跑”到“领跑”,大模型时代,中国开源项目正在用实力改写全球竞争格局。

  光超越还不够,划重点:

  PaddleOCR 同步升级服务放出一波福利,官⽹免费每⽇解析⻚数翻番,由 1 万提升⾄2 万。用户还可通过 OpenClaw 直接调用 PaddleOCR Skill,为其接入专业“视觉”能力。

  PaddleOCR OCEAN 生态联盟也重磅发布,面向核心开源贡献者、企业用户、模型托管平台及硬件厂商等 OCR 上下游伙伴,这将进一步推动 OCR 能力在更广泛场景中的应用落地。

  大模型时代,PaddleOCR 是如何拔得头筹的?OCR 又为何如此重要?

  超越谷歌 Tesseract OCR,新王者诞生

  在 OCR 领域,Tesseract OCR 无疑是一座里程碑式的存在,它的发展历程跨越四十多年。

  1985 年,Tesseract OCR 诞生于惠普公司的研发项目。彼时的 OCR 技术尚处于起步阶段,核心需求集中在商业文档的自动化识别与录入。

  1994 年,Tesseract OCR 核心版本开发完成。在 1995 年美国内华达大学拉斯维加斯分校(UNLV)组织的 OCR 评测中,Tesseract OCR 凭借优异的印刷体识别精度,跻身全球顶尖 OCR 引擎行列。

  不过,随着惠普业务重心的调整,1996 年后,Tesseract OCR 的研发工作几乎陷入停滞。直到 2005 年,惠普决定将 Tesseract OCR 开源。

  转折点出现在 2006 年,谷歌看中了 Tesseract OCR 的技术潜力,接过手来将其纳入自身开源生态体系。研发团队修复了大量历史遗留的 bug,优化了引擎的运行速度和兼容性,更紧跟技术潮流,推动其完成了从传统算法到深度学习的跨越。

  但技术世界的法则从来如此:没有永恒的王者,只有持续迭代的创新。

  文心大模型衍生而来的 PaddleOCR,正是这场变革的引领者。

  PaddleOCR 的登顶,并非一朝一夕之功。它诞生于 2020 年,是深度学习时代下原生基于深度学习技术构建的模型。

  2023 年,大模型浪潮席卷整个 AI 行业,OCR 赛道也迎来代际更替。文心大模型的持续高速迭代,直接为 PaddleOCR 带来了全新的能力天花板。

  PaddleOCR 与文心大模型之间,逐渐玩出了一套非常有意思的双向赋能组合拳:

  一个负责“看”:用高精度的文本提取能力,把文档中的文字、表格、公式准确捞出来,为大模型提供“食材”。

  一个负责“懂”:文心大模型快速迭代,在多模态方向实现突破,视觉理解、跨模态融合、结构化输出,能力版图一步步补齐。文心不仅能消化这些信息,还能反哺 PaddleOCR,让它真正理解复杂文档的逻辑脉络。

  这种协同直接推动了 PaddleOCR 的爆发式增长。

  Star History 显示,GitHub PaddleOCR Star 数自 2024 年起呈现加速增长态势。

  基于文心大模型技术底座,PaddleOCR-VL、PaddleOCR-VL-1.5 核心模型相继推出。

  2025 年 10 月,百度发布并开源自研多模态文档解析模型 PaddleOCR-VL

  PaddleOCR-VL 仅 0.9B 参数量,就在全球权威文档解析评测榜单 OmniDocBench V1.5 上拿下 92.6 分的成绩,超越 Gemini-2.5 Pro、GPT-4o 等与其体量悬殊的多模态大模型以及 OCR 领域的垂直模型 dots.ocr、MinerU 等,获得综合性能全球第一。

  在文本识别、公式识别、表格理解、阅读顺序四大核心能力上,PaddleOCR-VL 全面刷新 SOTA:

  同时,发布 16 小时内,PaddleOCR-VL 直冲 HuggingFace Trending 全球第一、ModelScope Trending 全球第一、HuggingFace Paper Trending 全球第一,持续五天登顶。

  今年一月底,百度再次发力,发布并开源新一代文档解析模型 PaddleOCR-VL-1.5

  同样仅 0.9B 参数,PaddleOCR-VL-1.5 在 OmniDocBench V1.5 上的整体精度再提升,达到 94.5%,超过 Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2 等,全球综合性能排第一。

  新一代模型更进一步实现了全球首次“异形框定位”

  模型能够精准识别倾斜、弯折、拍照畸变等非规则文档形态,让“歪文档”实现稳定、可规模化解析。金融票据处理、档案数字化等真实场景中的老大难问题,终于有了解决方案。

  目前,PaddleOCR 用户已覆盖 160 个国家和地区,支持 110+ 种语言识别,成为真正意义上具有全球影响力的开源项目。

  5M 参数模型硬刚千亿模型

  这些只是水面之上的部分。让 PaddleOCR 实现翻盘的,还有水面之下的技术突破、积淀和创新。

  CVPR 2026,PaddleOCR 团队有两篇研究成果成功被收录。

  这两篇论文瞄准的都是 OCR 领域最前沿、最棘手的行业难题。拆开这两篇论文,或许就能从更深层的技术视角看懂 PaddleOCR 到底强在哪。

  首先是PP-OCRv5这项工作。

  PP-OCRv5 论文链接: https://arxiv.org/pdf/2603.24373v1

  PP-OCRv5 提出的是一个反直觉的事:参数不一定是越大越好。

  模型参数仅 5M,却能在手写、多语言、自然场景下表现超越 GPT-4o 等千亿参数的大模型。

  怎么做到的?答案是“数据为中心”的系统化优化策略

  OCR 领域,大参数视觉语言模型占主导。但这类通用大模型普遍存在定位精度不足、文本幻觉等致命问题,而传统轻量化 OCR 模型又过度聚焦架构创新,始终被数据质量与规模的短板限制性能。

  PP-OCRv5 正是在这样的背景下诞生的。

  百度飞桨团队没有盲目堆模型规模,而是提出了一套针对 OCR 数据的量化分析框架,从数据难度、数据准确性、数据多样性三个维度,彻底重构了 OCR 模型的数据训练策略。

  实验验证了数据三维度优化的有效性。

  关键是,团队发现了这样一条规律:

  模型训练存在明确的“难度甜点区”,中等难度的数据训练效率最高,简单样本和高难度样本都需要控制比例;特征多样性远比盲目堆砌数据量更重要;而小模型对标签噪声居然有天然的强鲁棒性。

  在内部多场景基准测试中,PP-OCRv5 加权准确率从 PP-OCRv4 的 53.0% 大幅提升至 80.1%,在 OmniDocBench 上,该模型以 5M 参数实现 0.067 的平均归一化编辑距离,在专用 OCR 模型中达到最优水平,在多语言处理、旋转文本、复杂背景等场景表现稳健,定位精度更高、幻觉更少、计算成本远低于百亿参数视觉语言模型。

  这一切都指向一个核心结论:数据策略的上限还没有被充分挖掘。通过精细化的“数据工程”,小模型可以在 OCR 场景媲美大模型。

  在 PaddleOCR 团队看来,“数据本身,可能会慢慢变成⼀条更独⽴、也更重要的能⼒曲线”。

  再来看另一项被接收的工作,正是PaddleOCR-VL

  PaddleOCR-VL 论文链接: https://arxiv.org/pdf/2603.24326

  如果说 PP-OCRv5 解决的是“参数效率”,那 PaddleOCR-VL 进一步解决的是“计算困境”。

  高分辨率文档解析一直是 VLM 的痛点——输入一张高清文档,视觉 Token 数量呈二次方增长,算力消耗爆炸。但文档图像中大量是空白背景,算力浪费严重。

  PaddleOCR 团队的解法很巧妙:别一开始就处理整张图,先找到重点

  他们提出了“由粗到细”(Coarse-to-Fine)架构:先用一个轻量级的有效区域聚焦模块(VRFM)定位文档中的关键区域,再让 0.9B 的模型只处理这些区域。

  结果,视觉 Token 数量只有竞品的1/3 到1/2,精度反而更高。如前所述,在 OmniDocBench V1.5 权威榜单上,PaddleOCR-VL 以 92.62 分的综合成绩登顶全球第一。

  总结来看,PaddleOCR 的反超是技术代际更替的必然。

  为什么 AI 厂商都在抢 OCR?

  如果把过去半年 AI 圈的热闹拉出一条时间线,会发现一个清晰的现象:

  近半年,从巨头到创业公司,国内外 OCR 赛道迎来集体爆发。

  2025 年 10 月,百度 PaddleOCR-VL、DeepSeek-OCR、Allen AI olmOCR-2、Nanonets-OCR2-3B、dots.ocr.base 几乎同时发布。

  抱抱脸模型趋势榜一度被 OCR 模型“屠榜”。

  到了 11 月,腾讯 HunyuanOCR 问世;12 月,Mistral OCR 3 发布。

  2026 年 1 月,LightOnOCR-2、DeepSeek-OCR-2、百度 PaddleOCR-VL-1.5 接踵而至。

  2 月,智谱 GLM-OCR 发布;3 月,小红书 FireRed-OCR 加入战局。

  为什么这么卷?两个字:数据

  互联网公开的高质量数据快被“啃”完,模型训练面临数据亏空。行业广泛判断,大量有价值信息仍沉淀在文档、书籍、合同、表格、扫描件等离线载体中。

  OCR 就是那把钥匙。

  这些海量非结构化信息,无法直接被大模型理解与利用,必须经过 OCR,将图像中的文字、版面结构、表格、公式等转化为机器可处理的电子化文本。

  所以 OCR 的身份正在被重写:

  从早期依赖手工规则的扫描小帮手,到特征工程与深度学习驱动的高精度字符识别工具,再到如今与 Transformer 和 Agent 深度融合的新阶段,它早已跳出“办公室里的文档提取器”定位。

  现在,它是大模型数据生态的基座,是Agent 理解真实世界的“眼睛”,是大模型变聪明的“钥匙”

  就连启蒙全球千万学习者的 AI 大牛吴恩达,今年年初推出的新课程也是聚焦 OCR。课程内容就是关于智能体文档提取(Agent Doc Extraction),也就是教你怎么给 OCR 装上智能体大脑。

  当各家大模型的参数规模越来越接近,决胜的关键反而回到了最底层的数据获取与处理能力。谁拥有更强的 OCR 能力,谁就掌握了现实世界的信息入口,谁就能为自己的大模型提供源源不断的高质量养料。

  PaddleOCR 的登顶,正是这场角色转换中最具标志性的事件之一。

  更值得关注的是,这场竞争才刚刚开了个头。

  未来,OCR 的比拼会越来越“钻”。可以想象的一种方向是场景化,不再追求大而全,而是把金融票据、医疗档案、教育试卷等垂直场景做深做透;另一种是端云协同,轻量模型跑在手机、扫描仪上,本地快速识别,云端精准优化,既省算力又保隐私。

  更大的想象空间在于 OCR 和多模态大模型、Agent 更深度地融合,我们或许能看到真正的“全能信息处理助手”。

  PaddleOCR 的登顶,为中国厂商在 OCR 赛道拿下了领先身位。它背后折射出的,是中国开源整体实力和全球影响力的加速赶超。

  从底层基础设施到前沿技术突破,中国开源正在越来越多的赛道上拿出世界级的表现。OCR,只是其中一块拼图。