文心：不好意思，我把天花板又抬了

作者：文心：不好意思，我把天花板又抬了

百度刚扔出一颗“小钢炮”——PaddleOCR-VL-1.6。说它小，是因为参数只有0.9B，轻得像个“开胃菜”；说它是钢炮，因为这哥们一出手，就把GPT-5.2、Gemini-3-Pro这些“巨无霸”全干趴了，直接登顶全球第一。说实话，看到这个结果我第一反应是：有点反常识。过去大家都在拼参数、拼算力，好像模型不做到几百亿都不好意思出门。但这次PaddleOCR路子明显不一样。没有在堆参数，而在拼“巧劲”。咱们再看具体数据：OmniDocBench v1.6上96.3%的总成绩，直接把Gemini、GPT、GLM-OCR这些大牌甩在身后。更关键的是，在Real5-OmniDocBench这个真实场景测试里，它比Gemini-3-Pro高出将近4个百分点。什么叫真实场景？就是你的手机随手拍一张弯折的合同、图书馆里光线忽明忽暗的古籍、或者开会时斜着拍的屏幕。这些乱七八糟的情况，它都能稳住。而且这么能打的模型，上一代用户直接能平滑升级，不用改代码，不用重新适配。这种“小体积、大本事”的思路，比那些动辄几百亿参数的大家伙务实多了。这背后当然离不开文心大模型的多模态能力。PaddleOCR本来就是文心的衍生模型，这次升级更像是把文心的“眼睛”又擦亮了一层。它现在已经支持100多种语言，覆盖170多个国家和地区。在全球开发者投票下，它在GitHub上的star数截止目前共收获79.2K的星标，已经超过谷歌的Tesseract，恰恰说明这东西是真的好用，并不是纸上谈兵。 PaddleOCR-VL-1.6用96.3%证明了，中国开源OCR不仅能追，还能领跑。那么问题来了：天花板被抬到这么高，下一版还能怎么卷？我倒是挺想看看的。 #百度 #文心 #文心5 #文心大模型 #PaddleOCR #谷歌 #OCR #DeepSeek #AI #AI大模型

文章详情

文心：不好意思，我把天花板又抬了

推荐阅读