OCR天花板又被捅破了？96.33%什么概念

作者：OCR天花板又被捅破了？96.33%什么概念

这两天跟几个做国际业务的朋友聊天，聊到一个有意思的现象：在文档数字化和OCR这个赛道上，国外客户选方案的时候，现在越来越多人直接跳过欧美厂商，先看中国团队的产品。不是因为别的，而是产品确实优秀。刚好这两天看到OmniDocBench v1.6的最新成绩，一个叫PaddleOCR-VL-1.6的模型拿了全球第一，总指标96.33%。说实话，光看这个数字你可能没啥感觉。但对比一下就很直观了：它超过了Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro和GLM-OCR。是的，无论是和通用大模型还是和专用OCR模型放在一起比，它都排在最前面。而且，在Real5-OmniDocBench这套评测里，它拿到了93.19%，比Gemini-3-Pro高了将近4个百分点。这套评测模拟的是五种真实场景：在扫描件、弯折文档、屏幕拍照、光照变化及倾斜文档。说白了，不是在实验室的理想条件下跑分，是模拟你在办公室对着电脑屏幕或拿出手机随手就拍的真实场景。当然除了文本识别、公式、表格这些扎实的基本功以外，像古籍文档、生僻字识别等等复杂的场景，以及印章识别、Spotting和图表识别这几项上也都做了明显的提升。这个模型只有0.9B参数量，不到1B。小体量跑到这种成绩，说实话有点超出预期。重要的是，它是基于百度的文心大模型训练而来，继承了文心的多模态底座能力，支持超过100种语言识别，用户已经覆盖全球170多个国家和地区。对开发者来说一个很实际的好处，就是架构跟上一代PaddleOCR-VL-1.5完全一致，不用改代码、不用重新适配就能平滑升级。代码和权重都已经同步开源到GitHub和HuggingFace上了，官网也能直接体验API调用。说到底，OCR这件事以前大家的感觉就是"够用就行"，能认出大部分文字就谢天谢地了。但当一个不到1B的小模型能在五种实用场景里都拿到第一的时候，大家想的肯定就不止是"够用"了。这可能也是中国AI这几年一个挺有意思的缩影：不是靠堆参数、堆算力硬刚，而是用小体量、高精度、全开源的方式，把技术话语权一点点拿回来。当海外客户开始主动绕开欧美方案直接找中国团队的时候，说明很多事#情已经在悄悄变了！ #百度 #文心 #文心5 #文心大模型 #PaddleOCR #谷歌 #OCR #DeepSeek #ai #AI大模型

文章详情

OCR天花板又被捅破了？96.33%什么概念

推荐阅读