DeepSeek OCR 2，图像 token 怎么读

作者：DeepSeek OCR 2，图像 token 怎么读

第四篇看 DeepSeek OCR 2。很多人看到 OCR，会先想到识别文字。DeepSeek OCR 2 更值得看的地方，在视觉 token 的组织方式。一般视觉模型会把图片切成小块，再按左上到右下排成一串交给后面的模型。这个顺序对规则页面还行；遇到双栏、表格、图注、流程图，语义流就容易跑偏。 DeepSeek OCR 2 的思路：DeepEncoder V2 先判断图像块之间的关系，再通过 Visual Causal Flow 调整 token 顺序，让后续 LLM 接收到更接近阅读逻辑的序列。研发上我会把这件事看成输入侧的结构优化。模型能力有一部分来自参数和训练数据，也有一部分来自信息进入模型前的组织质量。视觉 token 顺序更接近人读文档的方式，LLM 就能少花容量去修正错乱的版式关系。这也解释了 OCR 2 在 DeepSeek 路线里的位置：他可以把文档、图表、版式信息变成更干净的训练燃料，后面再接语言模型或多模态模型。从 MoE、MLA 到 OCR 2，DeepSeek 的一条线很清楚：规模、缓存、输入组织，都是成本和能力的杠杆。 #deepseek #OCR #多模态 #LLM #视觉模型 #AI

文章详情

DeepSeek OCR 2，图像 token 怎么读

推荐阅读