DeepSeek上线识图模式,基于撤回的原语框架支持视觉CoT推理

DeepSeek正式上线识图模式(vision mode),该模式与快速模式、专家模式并列提供。新功能主打深度场景分析和空间逻辑推理,能够将UI界面截图转化为HTML结构化代码。对于复杂的几何推导和图表分析,系统会激活深度思考模型,提供完整的推理链条。识图模式基于DeepSeek团队的「以视觉原语思考」研究框架。研究指出,现有视觉语言模型在空间推理中存在「指称缺陷」,难以用模糊自然语言描述复杂视觉坐标。为此,研究团队将坐标点与边界框提升为最小思维单位,直接插入空间原语,实现同步空间指向。该模式目前仅支持图像输入,不支持视频、音频等多模态格式,且不具备图像生成能力。

上一篇:

下一篇:

发表回复

登录后才能评论