百度刚扔出一颗“小钢炮”——PaddleOCR-VL-1.6。说它小,是因为参数只有0.9B,轻得像个“开胃菜”;说它是钢炮,因为这哥们一出手,就把GPT-5.2、Gemini-3-Pro这些“巨无霸”全干趴了,直接登顶全球第一。 说实话,看到这个结果我第一反应是:有点反常识。 过去大家都在拼参数、拼算力,好像模型不做到几百亿都不好意思出门。但这次PaddleOCR路子明显不一样。没有在堆参数,而在拼“巧劲”。 咱们再看具体数据:OmniDocBench v1.6上96.3%的总成绩,直接把Gemini、GPT、GLM-OCR这些大牌甩在身后。更关键的是,在Real5-OmniDocBench这个真实场景测试里,它比Gemini-3-Pro高出将近4个百分点。什么叫真实场景?就是你的手机随手拍一张弯折的合同、图书馆里光线忽明忽暗的古籍、或者开会时斜着拍的屏幕。这些乱七八糟的情况,它都能稳住。 而且这么能打的模型,上一代用户直接能平滑升级,不用改代码,不用重新适配。这种“小体积、大本事”的思路,比那些动辄几百亿参数的大家伙务实多了。 这背后当然离不开文心大模型的多模态能力。PaddleOCR本来就是文心的衍生模型,这次升级更像是把文心的“眼睛”又擦亮了一层。它现在已经支持100多种语言,覆盖170多个国家和地区。在全球开发者投票下,它在GitHub上的star数截止目前共收获79.2K的星标,已经超过谷歌的Tesseract,恰恰说明这东西是真的好用,并不是纸上谈兵。 PaddleOCR-VL-1.6用96.3%证明了,中国开源OCR不仅能追,还能领跑。那么问题来了:天花板被抬到这么高,下一版还能怎么卷?我倒是挺想看看的。 #百度 #文心 #文心5 #文心大模型 #PaddleOCR #谷歌 #OCR #DeepSeek #AI #AI大模型