DeepSeek首次有了视觉能力，技术论文却被它连夜删掉了

日期：2026-05-03 16:57:37 / 人气：5

DeepSeek做了件罕见的事情：在终于开始灰测多模态能力后，它放出了一篇解释背后技术的论文，但这篇论文却在发布没多久就又被悄悄撤掉。没有官方说明，没有后续预告，这份突然的“消失”，让原本就充满好奇的行业内外，多了一层猜测与遐想。
4月29日，DeepSeek研究员陈小康在X发布一条推文——“现在，我们可以看见你了”。配图中，DeepSeek标志性的鲸鱼logo摘下眼罩，露出了眼睛，简洁的画面背后，是这家以文本、代码和推理能力著称的企业，正式向视觉领域迈出的关键一步。
过去，DeepSeek最被外界熟知的，是它在文本生成、代码辅助和复杂推理任务上的亮眼表现。但真实世界里的问题，并不总是以文字形式出现：它可能是一张照片、一页论文图表、一个网页截图、一份复杂表格，也可能是一个需要理解空间关系和视觉细节的现实场景。对DeepSeek来说，视觉能力不是简单的“锦上添花”，而是让它的推理能力从文本世界延伸到真实世界的核心支撑，是打破“文字壁垒”的关键一跃。
更让使用者感到意外的是，这次灰测的视觉能力，与其他模型“给语言模型底座增加多模态功能”的思路截然不同——它更像是一个独立的模型，并非以“附庸”形式存在，反而展现出某种原生的思考和推理能力，不只是“看见”，更能“思考”。
就在行业好奇心持续升温、众人期待深入了解其技术内核时，DeepSeek发布了一篇解释其视觉能力的论文：《Thinking with Visual Primitives》（基于视觉基元的思考）。从题目就能看出，DeepSeek眼中的“多模态”，并未偏离其核心优势——依然围绕推理和思考展开，它要让模型能在原生层面，用图形的基础语言做更准确、更严谨的思考。
这与当前主流模型厂商在多模态领域的发展方向截然不同，既让人意外，又充满启发。DeepSeek再一次为多模态基础研究，提供了全新的思路和可能。但更加出人意料的是，这篇承载着技术突破的论文，在发布后不久就被悄悄撤下，没有给出任何解释，也不确定未来是否会再次发布。
那么，DeepSeek这次的视觉能力到底是怎样的？我们结合实测反馈、研究员的公开分享，以及这篇“消失”论文的核心内容，尝试拆解它的独特思路与技术逻辑。
一、当DeepSeek的视觉能力，走进真实场景
目前，DeepSeek的视觉模式仍处于灰度测试阶段，正逐步向用户开放。从X平台上已试用到该功能的用户反馈来看，DeepSeek的视觉能力核心，不在于“识别图片里有什么”，而在于“把图像信息与世界知识关联起来”，实现更深度的视觉推理。
有用户在X上分享，DeepSeek视觉模式的世界知识储备非常丰富，思考过程也极具逻辑性。他在公司附近拍了一张照片发给模型，从DeepSeek的推理过程中能看到，它几乎熟悉该区域的每一栋建筑，并会主动匹配、搜索正确的目标建筑——而这一过程，完全没有依赖联网搜索能力，依靠的是模型自身的知识储备。
还有用户反馈，DeepSeek的网页复刻还原能力表现突出。这对设计师和产品经理而言极具实用价值：以往从Figma设计稿、网页截图到可点击演示原型，需要经过设计师标注、开发切图、工程师实现等多个环节，耗时费力；而现在，DeepSeek能直接读懂页面布局、模块层级，生成接近真实效果的网页，大幅缩短了想法验证的周期。
笔者也实际测试了DeepSeek的视觉理解能力，发送一张迷宫图请其解答。结果显示，DeepSeek的思考过程十分严谨：它采用反向推理的方法，从终点出发逐步反向追踪至起点；为了验证解法的可行性，又用正向路径重新走了一遍，随后再次核算确认，整个过程中反复推理了四遍路径的合理性，最终才输出最终答案——这份严谨，完全延续了它在文本推理领域的优势。
二、多模态模型的难题：不只是“看不清”，更是“指不准”
陈小康在4月30日发布的推文中，对DeepSeek的视觉技术做了更详细的解释：传统的思维链（CoT）主要停留在语言空间里，但视觉推理需要更多维度的能力；通过把点和框作为认知锚点，模型弥合了“指代鸿沟”（Reference Gap），模拟了人类在视觉推理中常用的“指向—推理”协同机制。
而这一核心思路，正是DeepSeek在那篇“消失”的论文中提出的新推理框架——使用视觉基元进行思考（Thinking with Visual Primitives）。
所谓“视觉基元”（Visual Primitves），是图形学和几何学中的常用术语，可理解为描述几何信息、图形空间信息的最基本元素，相当于模型在图像中的“手指”。以往多模态模型面对一张图片时，通常只会用语言组织思考，比如“左边那个人”“右上角的物体”“中间那条路”——这种描述对人类而言自然易懂，但对模型来说，却很容易出现模糊和偏差。
尤其是在复杂图像中，若存在多个相似的人、物体或区域，“左边那个”“旁边那个”这类模糊表述，会让模型在推理过程中混淆对象。DeepSeek在论文中将这一问题称为“指代鸿沟”：模型不是完全“看不见”，而是“看见”之后，很难在连续的视觉空间中，稳定地指向自己正在讨论的对象。
而视觉基元要解决的，正是这个核心痛点：当模型数一张合照里有多少人时，它会先用边界框把每个人标出来，再进行统计；当模型判断两个物体的位置关系时，它会先框出相关物体，再比较它们的相对位置；当模型走迷宫或追踪一条线时，它会用一串点记录路径，而不是只用语言说“往左、再往右”。
简言之，视觉基元让模型的推理不再悬浮在文字里，而是被锚定到图像中的具体位置——多模态模型的能力，不只是“看得更清楚”，更要“指得更准确”。
三、DeepSeek的视觉推理：三大任务，一套核心逻辑
陈小康明确表示，目前DeepSeek的视觉模型主要处理三类任务：计数、空间推理和拓扑推理。其核心逻辑并非简单让模型看更高分辨率的图片，而是让模型在推理过程中，主动使用点、框、路径坐标这些“视觉基元”，把每一步判断都落到图像中的具体位置上，确保推理的准确性和可验证性。
（一）计数任务：用边界框锚定，解决“数不准”难题
论文中提到，多模态大语言模型一直难以实现准确计数，尤其是在密集场景中。人类计数时，通常会采用“系统扫描和累加”的方式，比如从左到右一个个点着数；但语言模型在对象数量较多时，很难建立精确的对象对应关系，容易出现漏数、重复数的情况。
为解决这一问题，DeepSeek将边界框作为视觉基元，为每个被计数对象提供明确的视觉锚点。也就是说，模型不会直接凭感觉回答“有多少个”，而是先把目标对象找出来、框出来，再基于这些边界框进行统计。
比如数一张合照里的人数，模型会先框出图中的每个人，再逐一计数得出总数；对于更复杂的细粒度计数，比如“有几只熊在地面上”，模型会先找出所有熊，再逐一判断它们的位置（树上或地面），最后筛选出符合条件的数量。
论文中还将计数分为两类：粗粒度计数（如数“狗”“人”“车”等普通对象）和细粒度计数（如数“白色的狗”“左边的狗”“站在地上的熊”）。后者不仅要求模型识别对象，还要判断颜色、位置、状态等附加条件，DeepSeek采用“定位—验证—统计”的流程，让模型先找到候选对象，再逐个验证是否符合问题要求，确保计数准确。
（二）空间推理任务：锚定关键对象，避免“指代模糊”
空间推理与一般视觉问答被DeepSeek归为同一类别，核心难点在于：如果只用语言描述，模型很容易出现指代模糊和语义漂移。比如“灰色金属物体”“旁边那个小物体”“同样大小的紫色橡胶物体”，这些表述若不落到具体图像区域上，模型在推理过程中很容易混淆对象。
因此，DeepSeek的核心做法是：让模型先把关键对象用边界框锚定，再基于这些具体对象进行多步推理。论文中的一个典型例子的是，让模型判断“图中是否存在一个紫色橡胶物体，和灰色金属物体大小相同”。
模型的推理过程清晰且严谨：首先定位灰色金属球，判断其为“小物体”；随后逐一检查图像中的其他小物体，分别判断它们的颜色、材质、大小是否与要求匹配；最终得出结论：图中没有符合条件的紫色橡胶物体。整个过程中，边界框的锚定作用，有效避免了指代模糊带来的推理偏差。
（三）拓扑推理任务：用点追踪路径，破解“轨迹混乱”
拓扑推理关注的不是某个物体是什么，而是路径、连通性和结构关系——比如迷宫里从起点能不能走到终点，一堆交错的线条中，某一条线最终连到哪个图标。这类任务对多模态模型而言难度极高，因为它要求模型持续跟踪路径，而非“看一眼就回答”。
论文中提到，纯语言的思维链很难准确描述不规则形状的轨迹，因此，DeepSeek选择用“点”作为认知单元的视觉基元，专门处理这类拓扑推理任务。
在迷宫导航任务中，DeepSeek会让模型先找到起点和终点，再像做深度优先搜索一样探索路径；模型每走到一个关键位置，就用点坐标记录下来；如果遇到死路，就回退到前一个岔路口，再尝试另一条路径。这一过程中，模型需要理解空间连通性和可达性，判断哪里有路、哪里被墙挡住、哪条路径最终能到达终点——这正是视觉基元的核心价值所在。
在线条追踪任务中，模型同样用一串点来表示自己的追踪轨迹。这类任务的核心挑战是“交叉点消歧”：当两条线交叉时，模型必须根据局部几何连续性，判断哪一条才是目标线的延续，而非被另一条线带偏。为了防止模型“作弊”（靠颜色猜测轨迹），DeepSeek还专门设计了“所有线条颜色和粗细都相同”的样本，迫使模型真正依靠曲线连续性来追踪路径。
四、视觉基元：不是终点，只是新的起点
需要明确的是，使用视觉基元进行思考，并不意味着视觉推理问题已经被彻底解决。它的核心优势，是让模型的视觉推理变得更稳定、更可验证，同时提升推理效率，但这套方法也存在明显的局限——这些局限，在那篇“消失”的论文中也被坦诚提及。
（一）视觉基元的两大核心优势
第一个优势是减少幻觉。模型判断问题时，不能再只凭语义猜测，而必须先在图像中找出候选对象，再逐一验证、排除，大幅降低了“凭空想象”的概率。比如判断“图中是否有紫色橡胶物体”，模型必须先框出所有候选物体，再核对颜色和材质，避免了仅凭语言描述带来的误判。
第二个优势是提高可解释性。以往模型回答“图中有25个人”，用户无法验证其准确性；而DeepSeek的模型会同时框出这25个人，用户可以直观判断模型是否漏数、重复数，或是把其他物体误认成人——这种“可视化推理”，让模型的决策过程更透明、更可信。
此外，视觉基元还能提升推理效率。论文中提到，DeepSeek并未依赖大量视觉token来弥补视觉能力，而是通过更高效的视觉token压缩架构，让模型在较低图像token消耗下，依然保持较强的推理能力。比如对于800×800的输入图像，其模型在KV cache中只保留大约90个条目，却能在计数、空间推理等基准测试中，取得有竞争力的表现。
这也体现了DeepSeek的核心思路：不追求“无限提高分辨率、堆更多图像token”，而是让模型更高效地使用视觉信息，聚焦“推理本身”而非“感知细节”。
（二）尚未解决的三大局限
首先，受输入分辨率限制，模型在细粒度场景下的表现仍不够理想，有时会输出不够精确的视觉基元。也就是说，如果图像中的目标非常小、细节非常密集，或是需要识别的区域边界模糊，点和框本身也可能标得不准——视觉基元能改善“指代问题”，但不能完全替代“感知能力”，模型首先要“看清楚”，才能谈得上“指得准”。
其次，这种能力目前还依赖显式触发。论文中提到，当前使用视觉基元进行思考的能力，需要通过明确的触发词来激活；未来，DeepSeek希望模型能根据具体上下文，自主判断是否调用这一机制。这意味着，现在用户如果只是普通提问（比如“这张图里有多少人”），模型可能仍然用普通语言推理，而不会主动输出点、框或路径——距离“自主适配场景”还有一段距离。
最后，拓扑推理仍然是一大难点。论文中坦诚，使用点作为视觉基元来解决复杂拓扑推理问题，仍是一项艰巨挑战，目前模型的跨场景泛化能力也有限。点可以告诉模型“现在走到哪里”，但无法直接表示“这里和那里是否连通”：迷宫中两个点看似很近，中间可能隔着墙；交错线条中，视觉上的交点，未必是同一条路径的延续。模型不仅要标点，还要持续判断连通关系、路径方向和局部几何连续性，只要中间一步出错，后续推理就可能全部偏离。
五、论文删除背后：猜想与展望
DeepSeek这次“发布论文又连夜删除”的罕见操作，引发了行业内的诸多猜测。有人认为，这篇论文中披露的技术，对于开源模型而言“过于强大”，若公开传播，可能影响其核心竞争力，因此选择紧急撤下；也有人推测，论文中可能存在技术细节尚未完善、数据验证不够充分的问题，暂时撤下是为了进一步优化；还有人猜测，这或许是DeepSeek的一种营销策略，通过“消失的论文”引发关注，为后续的功能正式上线铺垫。
真相究竟如何，目前还不得而知，只能等待DeepSeek官方给出明确解释。但不可否认的是，DeepSeek这次提出的“视觉基元”思路，为多模态推理提供了一个全新的方向——它让图像不再只是“输入材料”，而是成为模型推理过程的一部分；模型不只是“看见”世界，更开始学会在世界中找到锚点，实现更严谨、更可验证的视觉推理。
对DeepSeek而言，视觉能力的灰测的只是一个开始，视觉基元也不是终点。如何解决当前的局限，让模型实现“自主触发视觉基元”“提升细粒度感知能力”“强化拓扑推理泛化性”，将是它接下来需要攻克的核心难题。而对于整个多模态领域而言，DeepSeek的尝试，无疑为行业提供了新的思考维度——多模态的未来，或许不只是“多模态的叠加”，更是“多模态的深度融合”，让模型真正学会用人类的方式，观察、思考这个真实的世界。

作者：顺盈注册登录平台

DeepSeek首次有了视觉能力，技术论文却被它连夜删掉了

新闻资讯 News

案例展示 Case

现在致电 8888910 OR 查看更多联系方式 →

现在致电 8888910 OR 查看更多联系方式 →