这两天跟几个做国际业务的朋友聊天,聊到一个有意思的现象:在文档数字化和OCR这个赛道上,国外客户选方案的时候,现在越来越多人直接跳过欧美厂商,先看中国团队的产品。 不是因为别的,而是产品确实优秀。 刚好这两天看到OmniDocBench v1.6的最新成绩,一个叫PaddleOCR-VL-1.6的模型拿了全球第一,总指标96.33%。 说实话,光看这个数字你可能没啥感觉。但对比一下就很直观了:它超过了Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro和GLM-OCR。是的,无论是和通用大模型还是和专用OCR模型放在一起比,它都排在最前面。 而且,在Real5-OmniDocBench这套评测里,它拿到了93.19%,比Gemini-3-Pro高了将近4个百分点。这套评测模拟的是五种真实场景:在扫描件、弯折文档、屏幕拍照、光照变化及倾斜文档。说白了,不是在实验室的理想条件下跑分,是模拟你在办公室对着电脑屏幕或拿出手机随手就拍的真实场景。 当然除了文本识别、公式、表格这些扎实的基本功以外,像古籍文档、生僻字识别等等复杂的场景,以及印章识别、Spotting和图表识别这几项上也都做了明显的提升。 这个模型只有0.9B参数量,不到1B。小体量跑到这种成绩,说实话有点超出预期。重要的是,它是基于百度的文心大模型训练而来,继承了文心的多模态底座能力,支持超过100种语言识别,用户已经覆盖全球170多个国家和地区。 对开发者来说一个很实际的好处,就是架构跟上一代PaddleOCR-VL-1.5完全一致,不用改代码、不用重新适配就能平滑升级。代码和权重都已经同步开源到GitHub和HuggingFace上了,官网也能直接体验API调用。 说到底,OCR这件事以前大家的感觉就是"够用就行",能认出大部分文字就谢天谢地了。但当一个不到1B的小模型能在五种实用场景里都拿到第一的时候,大家想的肯定就不止是"够用"了。 这可能也是中国AI这几年一个挺有意思的缩影:不是靠堆参数、堆算力硬刚,而是用小体量、高精度、全开源的方式,把技术话语权一点点拿回来。当海外客户开始主动绕开欧美方案直接找中国团队的时候,说明很多事#情已经在悄悄变了! #百度 #文心 #文心5 #文心大模型 #PaddleOCR #谷歌 #OCR #DeepSeek #ai #AI大模型