DeepSeek上线识图模式，基于撤回的原语框架支持视觉CoT推理

DeepSeek正式上线识图模式（vision mode），该模式与快速模式、专家模式并列提供。新功能主打深度场景分析和空间逻辑推理，能够将UI界面截图转化为HTML结构化代码。对于复杂的几何推导和图表分析，系统会激活深度思考模型，提供完整的推理链条。识图模式基于DeepSeek团队的「以视觉原语思考」研究框架。研究指出，现有视觉语言模型在空间推理中存在「指称缺陷」，难以用模糊自然语言描述复杂视觉坐标。为此，研究团队将坐标点与边界框提升为最小思维单位，直接插入空间原语，实现同步空间指向。该模式目前仅支持图像输入，不支持视频、音频等多模态格式，且不具备图像生成能力。

DeepSeek上线识图模式，基于撤回的原语框架支持视觉CoT推理

发表回复