第四篇看 DeepSeek OCR 2。 很多人看到 OCR,会先想到识别文字。DeepSeek OCR 2 更值得看的地方,在视觉 token 的组织方式。 一般视觉模型会把图片切成小块,再按左上到右下排成一串交给后面的模型。这个顺序对规则页面还行;遇到双栏、表格、图注、流程图,语义流就容易跑偏。 DeepSeek OCR 2 的思路:DeepEncoder V2 先判断图像块之间的关系,再通过 Visual Causal Flow 调整 token 顺序,让后续 LLM 接收到更接近阅读逻辑的序列。 研发上我会把这件事看成输入侧的结构优化。 模型能力有一部分来自参数和训练数据,也有一部分来自信息进入模型前的组织质量。 视觉 token 顺序更接近人读文档的方式,LLM 就能少花容量去修正错乱的版式关系。 这也解释了 OCR 2 在 DeepSeek 路线里的位置:他可以把文档、图表、版式信息变成更干净的训练燃料,后面再接语言模型或多模态模型。 从 MoE、MLA 到 OCR 2,DeepSeek 的一条线很清楚:规模、缓存、输入组织,都是成本和能力的杠杆。 #deepseek #OCR #多模态 #LLM #视觉模型 #AI