文章详情

专注互联网科技,赋能企业数字化发展

DeepSeek 多模态识图体验

作者:DeepSeek 多模态识图体验

DeepSeek 终于推出原生多模态模型(部分用户已被推送)。 过去: - 采用“外挂”视觉模块来处理图像。 - 相当于给大脑外接了一双“眼睛”。本质上是两套独立系统,在不断交换数据的过程中,就会产生信息损耗和性能影响。点像早期的5G手机,需要依靠“外挂基带”来支持 5G 网络,虽能满足基础功能。 现在: - 同属一套底层架构,实现深度融合。 - 大脑与眼睛不再是分离的“搭档”,而是从模型预训练阶段开始,就融为一体进行联合训练,从而实现了真正意义上的多模态。 在开启深度思考的情况下,尝试上传两张图片: - 六根手指图:可以看到思维链中已经在对手指进行计数,但最终数出了“5根手指”。 - 停车指示牌:识别速度和结果比较令人满意,思考过程清晰。 感受: - 已基本满足日常使用,但模型本身可能主要建立在常规数据之上。 - 以手指为例,可能模型的对手指的认知就是“5根”,因此会对特殊情况进行忽略或思维定性。无法理解手部存在先天特殊情况的可能(如六指)。 #deepseek #DeepSeek #多模态 #识图 #OCR

返回新闻列表