文心这条能力线，打进OCR深水区

作者：文心这条能力线，打进OCR深水区

PaddleOCR-VL-1.6 一发布，百度把一组硬成绩摆到了台面上。这个基于百度文心大模型训练出的衍生模型，在 OmniDocBench v1.6 评测中拿到 96.33%，登上 OCR 综合性能全球榜首；到了 Real5-OmniDocBench，也拿到 93.19%，比 Gemini-3-Pro 高出近 4 个百分点。放在 OCR 赛道里，这不只是一次普通版本更新。过去提到 OCR，很多人想到的还是“图片转文字”。但行业走到现在，麻烦早就不止在识字这一层。一页材料里，正文、表格、公式、图表、印章可能挤在一起，拍摄角度、光照、折痕、多语言、生僻字也会混进来。机器只会认字，到了业务现场很快就会露怯。例如在财务报销、档案整理、科研资料、供应链单据这些场景里，文档识别一偏，后面的审核、归档、检索、抽取都会受影响。很多数字化项目推进到后半段，卡住的往往就是这些不规整材料。而PaddleOCR-VL-1.6 的分量，就落在这些细处。这次更新继续提升文本识别，也把表格、公式、古籍、生僻字、印章、Spotting、图表识别往前推。这些能力听起来没有聊天机器人热闹，但是落到产业现场却很实用。模型能力往前走，工程侧也得跟得上。 PaddleOCR-VL-1.6 保住了 0.9B 轻量化架构，延续上一代结构，已有用户可以平滑迁移。企业系统一旦跑起来，很少愿意为了一次升级重拆链路。准确率提上去，改造压力还能控制住，开发团队会更愿意用。这也是 PaddleOCR 这些年能积累口碑的原因。它已经支持 100 多种语言，用户覆盖 170 多个国家和地区，在GitHub上的 Star 数突破 79.2K，一举超过了谷歌 Tesseract OCR。一个开源 OCR 项目能走到今天这个位置，靠的是长期项目打磨，也是在一页页复杂文档里跑出来的信任。 PaddleOCR-VL-1.6 这次登顶，留下的看点不只是榜单名次。它把复杂文档理解继续往深处推，也让文心大模型的能力有了更具体的注脚。榜单只是阶段性答卷，0.9B小模型还藏着不小潜力。当海外巨头持续加码，后续国产OCR该如何延续优势呢？一起观望吧。 #百度 #文心 #文心5 #文心大模型 #PaddleOCR #谷歌 #OCR #DeepSeek #AI #AI大模型

文章详情

文心这条能力线，打进OCR深水区

推荐阅读