PaddleOCR-VL-1.6 一发布,百度把一组硬成绩摆到了台面上。 这个基于百度文心大模型训练出的衍生模型,在 OmniDocBench v1.6 评测中拿到 96.33%,登上 OCR 综合性能全球榜首;到了 Real5-OmniDocBench,也拿到 93.19%,比 Gemini-3-Pro 高出近 4 个百分点。 放在 OCR 赛道里,这不只是一次普通版本更新。 过去提到 OCR,很多人想到的还是“图片转文字”。但行业走到现在,麻烦早就不止在识字这一层。一页材料里,正文、表格、公式、图表、印章可能挤在一起,拍摄角度、光照、折痕、多语言、生僻字也会混进来。机器只会认字,到了业务现场很快就会露怯。 例如在财务报销、档案整理、科研资料、供应链单据这些场景里,文档识别一偏,后面的审核、归档、检索、抽取都会受影响。很多数字化项目推进到后半段,卡住的往往就是这些不规整材料。 而PaddleOCR-VL-1.6 的分量,就落在这些细处。 这次更新继续提升文本识别,也把表格、公式、古籍、生僻字、印章、Spotting、图表识别往前推。这些能力听起来没有聊天机器人热闹,但是落到产业现场却很实用。 模型能力往前走,工程侧也得跟得上。 PaddleOCR-VL-1.6 保住了 0.9B 轻量化架构,延续上一代结构,已有用户可以平滑迁移。企业系统一旦跑起来,很少愿意为了一次升级重拆链路。准确率提上去,改造压力还能控制住,开发团队会更愿意用。 这也是 PaddleOCR 这些年能积累口碑的原因。 它已经支持 100 多种语言,用户覆盖 170 多个国家和地区,在GitHub上的 Star 数突破 79.2K,一举超过了谷歌 Tesseract OCR。一个开源 OCR 项目能走到今天这个位置,靠的是长期项目打磨,也是在一页页复杂文档里跑出来的信任。 PaddleOCR-VL-1.6 这次登顶,留下的看点不只是榜单名次。它把复杂文档理解继续往深处推,也让文心大模型的能力有了更具体的注脚。榜单只是阶段性答卷,0.9B小模型还藏着不小潜力。当海外巨头持续加码,后续国产OCR该如何延续优势呢?一起观望吧。 #百度 #文心 #文心5 #文心大模型 #PaddleOCR #谷歌 #OCR #DeepSeek #AI #AI大模型