DeepSeek 多模态识图体验

作者：DeepSeek 多模态识图体验

DeepSeek 终于推出原生多模态模型（部分用户已被推送）。过去： - 采用“外挂”视觉模块来处理图像。 - 相当于给大脑外接了一双“眼睛”。本质上是两套独立系统，在不断交换数据的过程中，就会产生信息损耗和性能影响。点像早期的5G手机，需要依靠“外挂基带”来支持 5G 网络，虽能满足基础功能。现在： - 同属一套底层架构，实现深度融合。 - 大脑与眼睛不再是分离的“搭档”，而是从模型预训练阶段开始，就融为一体进行联合训练，从而实现了真正意义上的多模态。在开启深度思考的情况下，尝试上传两张图片： - 六根手指图：可以看到思维链中已经在对手指进行计数，但最终数出了“5根手指”。 - 停车指示牌：识别速度和结果比较令人满意，思考过程清晰。感受： - 已基本满足日常使用，但模型本身可能主要建立在常规数据之上。 - 以手指为例，可能模型的对手指的认知就是“5根”，因此会对特殊情况进行忽略或思维定性。无法理解手部存在先天特殊情况的可能（如六指）。 #deepseek #DeepSeek #多模态 #识图 #OCR

文章详情

DeepSeek 多模态识图体验

推荐阅读