DeepSeek首次有了视觉能力,技术论文却被它连夜删掉了

日期:2026-05-03 16:57:37 / 人气:5


DeepSeek做了件罕见的事情:在终于开始灰测多模态能力后,它放出了一篇解释背后技术的论文,但这篇论文却在发布没多久就又被悄悄撤掉。没有官方说明,没有后续预告,这份突然的“消失”,让原本就充满好奇的行业内外,多了一层猜测与遐想。
4月29日,DeepSeek研究员陈小康在X发布一条推文——“现在,我们可以看见你了”。配图中,DeepSeek标志性的鲸鱼logo摘下眼罩,露出了眼睛,简洁的画面背后,是这家以文本、代码和推理能力著称的企业,正式向视觉领域迈出的关键一步。
过去,DeepSeek最被外界熟知的,是它在文本生成、代码辅助和复杂推理任务上的亮眼表现。但真实世界里的问题,并不总是以文字形式出现:它可能是一张照片、一页论文图表、一个网页截图、一份复杂表格,也可能是一个需要理解空间关系和视觉细节的现实场景。对DeepSeek来说,视觉能力不是简单的“锦上添花”,而是让它的推理能力从文本世界延伸到真实世界的核心支撑,是打破“文字壁垒”的关键一跃。
更让使用者感到意外的是,这次灰测的视觉能力,与其他模型“给语言模型底座增加多模态功能”的思路截然不同——它更像是一个独立的模型,并非以“附庸”形式存在,反而展现出某种原生的思考和推理能力,不只是“看见”,更能“思考”。
就在行业好奇心持续升温、众人期待深入了解其技术内核时,DeepSeek发布了一篇解释其视觉能力的论文:《Thinking with Visual Primitives》(基于视觉基元的思考)。从题目就能看出,DeepSeek眼中的“多模态”,并未偏离其核心优势——依然围绕推理和思考展开,它要让模型能在原生层面,用图形的基础语言做更准确、更严谨的思考。
这与当前主流模型厂商在多模态领域的发展方向截然不同,既让人意外,又充满启发。DeepSeek再一次为多模态基础研究,提供了全新的思路和可能。但更加出人意料的是,这篇承载着技术突破的论文,在发布后不久就被悄悄撤下,没有给出任何解释,也不确定未来是否会再次发布。
那么,DeepSeek这次的视觉能力到底是怎样的?我们结合实测反馈、研究员的公开分享,以及这篇“消失”论文的核心内容,尝试拆解它的独特思路与技术逻辑。
一、当DeepSeek的视觉能力,走进真实场景
目前,DeepSeek的视觉模式仍处于灰度测试阶段,正逐步向用户开放。从X平台上已试用到该功能的用户反馈来看,DeepSeek的视觉能力核心,不在于“识别图片里有什么”,而在于“把图像信息与世界知识关联起来”,实现更深度的视觉推理。
有用户在X上分享,DeepSeek视觉模式的世界知识储备非常丰富,思考过程也极具逻辑性。他在公司附近拍了一张照片发给模型,从DeepSeek的推理过程中能看到,它几乎熟悉该区域的每一栋建筑,并会主动匹配、搜索正确的目标建筑——而这一过程,完全没有依赖联网搜索能力,依靠的是模型自身的知识储备。
还有用户反馈,DeepSeek的网页复刻还原能力表现突出。这对设计师和产品经理而言极具实用价值:以往从Figma设计稿、网页截图到可点击演示原型,需要经过设计师标注、开发切图、工程师实现等多个环节,耗时费力;而现在,DeepSeek能直接读懂页面布局、模块层级,生成接近真实效果的网页,大幅缩短了想法验证的周期。
笔者也实际测试了DeepSeek的视觉理解能力,发送一张迷宫图请其解答。结果显示,DeepSeek的思考过程十分严谨:它采用反向推理的方法,从终点出发逐步反向追踪至起点;为了验证解法的可行性,又用正向路径重新走了一遍,随后再次核算确认,整个过程中反复推理了四遍路径的合理性,最终才输出最终答案——这份严谨,完全延续了它在文本推理领域的优势。
二、多模态模型的难题:不只是“看不清”,更是“指不准”
陈小康在4月30日发布的推文中,对DeepSeek的视觉技术做了更详细的解释:传统的思维链(CoT)主要停留在语言空间里,但视觉推理需要更多维度的能力;通过把点和框作为认知锚点,模型弥合了“指代鸿沟”(Reference Gap),模拟了人类在视觉推理中常用的“指向—推理”协同机制。
而这一核心思路,正是DeepSeek在那篇“消失”的论文中提出的新推理框架——使用视觉基元进行思考(Thinking with Visual Primitives)。
所谓“视觉基元”(Visual Primitves),是图形学和几何学中的常用术语,可理解为描述几何信息、图形空间信息的最基本元素,相当于模型在图像中的“手指”。以往多模态模型面对一张图片时,通常只会用语言组织思考,比如“左边那个人”“右上角的物体”“中间那条路”——这种描述对人类而言自然易懂,但对模型来说,却很容易出现模糊和偏差。
尤其是在复杂图像中,若存在多个相似的人、物体或区域,“左边那个”“旁边那个”这类模糊表述,会让模型在推理过程中混淆对象。DeepSeek在论文中将这一问题称为“指代鸿沟”:模型不是完全“看不见”,而是“看见”之后,很难在连续的视觉空间中,稳定地指向自己正在讨论的对象。
而视觉基元要解决的,正是这个核心痛点:当模型数一张合照里有多少人时,它会先用边界框把每个人标出来,再进行统计;当模型判断两个物体的位置关系时,它会先框出相关物体,再比较它们的相对位置;当模型走迷宫或追踪一条线时,它会用一串点记录路径,而不是只用语言说“往左、再往右”。
简言之,视觉基元让模型的推理不再悬浮在文字里,而是被锚定到图像中的具体位置——多模态模型的能力,不只是“看得更清楚”,更要“指得更准确”。
三、DeepSeek的视觉推理:三大任务,一套核心逻辑
陈小康明确表示,目前DeepSeek的视觉模型主要处理三类任务:计数、空间推理和拓扑推理。其核心逻辑并非简单让模型看更高分辨率的图片,而是让模型在推理过程中,主动使用点、框、路径坐标这些“视觉基元”,把每一步判断都落到图像中的具体位置上,确保推理的准确性和可验证性。
(一)计数任务:用边界框锚定,解决“数不准”难题
论文中提到,多模态大语言模型一直难以实现准确计数,尤其是在密集场景中。人类计数时,通常会采用“系统扫描和累加”的方式,比如从左到右一个个点着数;但语言模型在对象数量较多时,很难建立精确的对象对应关系,容易出现漏数、重复数的情况。
为解决这一问题,DeepSeek将边界框作为视觉基元,为每个被计数对象提供明确的视觉锚点。也就是说,模型不会直接凭感觉回答“有多少个”,而是先把目标对象找出来、框出来,再基于这些边界框进行统计。
比如数一张合照里的人数,模型会先框出图中的每个人,再逐一计数得出总数;对于更复杂的细粒度计数,比如“有几只熊在地面上”,模型会先找出所有熊,再逐一判断它们的位置(树上或地面),最后筛选出符合条件的数量。
论文中还将计数分为两类:粗粒度计数(如数“狗”“人”“车”等普通对象)和细粒度计数(如数“白色的狗”“左边的狗”“站在地上的熊”)。后者不仅要求模型识别对象,还要判断颜色、位置、状态等附加条件,DeepSeek采用“定位—验证—统计”的流程,让模型先找到候选对象,再逐个验证是否符合问题要求,确保计数准确。
(二)空间推理任务:锚定关键对象,避免“指代模糊”
空间推理与一般视觉问答被DeepSeek归为同一类别,核心难点在于:如果只用语言描述,模型很容易出现指代模糊和语义漂移。比如“灰色金属物体”“旁边那个小物体”“同样大小的紫色橡胶物体”,这些表述若不落到具体图像区域上,模型在推理过程中很容易混淆对象。
因此,DeepSeek的核心做法是:让模型先把关键对象用边界框锚定,再基于这些具体对象进行多步推理。论文中的一个典型例子的是,让模型判断“图中是否存在一个紫色橡胶物体,和灰色金属物体大小相同”。
模型的推理过程清晰且严谨:首先定位灰色金属球,判断其为“小物体”;随后逐一检查图像中的其他小物体,分别判断它们的颜色、材质、大小是否与要求匹配;最终得出结论:图中没有符合条件的紫色橡胶物体。整个过程中,边界框的锚定作用,有效避免了指代模糊带来的推理偏差。
(三)拓扑推理任务:用点追踪路径,破解“轨迹混乱”
拓扑推理关注的不是某个物体是什么,而是路径、连通性和结构关系——比如迷宫里从起点能不能走到终点,一堆交错的线条中,某一条线最终连到哪个图标。这类任务对多模态模型而言难度极高,因为它要求模型持续跟踪路径,而非“看一眼就回答”。
论文中提到,纯语言的思维链很难准确描述不规则形状的轨迹,因此,DeepSeek选择用“点”作为认知单元的视觉基元,专门处理这类拓扑推理任务。
在迷宫导航任务中,DeepSeek会让模型先找到起点和终点,再像做深度优先搜索一样探索路径;模型每走到一个关键位置,就用点坐标记录下来;如果遇到死路,就回退到前一个岔路口,再尝试另一条路径。这一过程中,模型需要理解空间连通性和可达性,判断哪里有路、哪里被墙挡住、哪条路径最终能到达终点——这正是视觉基元的核心价值所在。
在线条追踪任务中,模型同样用一串点来表示自己的追踪轨迹。这类任务的核心挑战是“交叉点消歧”:当两条线交叉时,模型必须根据局部几何连续性,判断哪一条才是目标线的延续,而非被另一条线带偏。为了防止模型“作弊”(靠颜色猜测轨迹),DeepSeek还专门设计了“所有线条颜色和粗细都相同”的样本,迫使模型真正依靠曲线连续性来追踪路径。
四、视觉基元:不是终点,只是新的起点
需要明确的是,使用视觉基元进行思考,并不意味着视觉推理问题已经被彻底解决。它的核心优势,是让模型的视觉推理变得更稳定、更可验证,同时提升推理效率,但这套方法也存在明显的局限——这些局限,在那篇“消失”的论文中也被坦诚提及。
(一)视觉基元的两大核心优势
第一个优势是减少幻觉。模型判断问题时,不能再只凭语义猜测,而必须先在图像中找出候选对象,再逐一验证、排除,大幅降低了“凭空想象”的概率。比如判断“图中是否有紫色橡胶物体”,模型必须先框出所有候选物体,再核对颜色和材质,避免了仅凭语言描述带来的误判。
第二个优势是提高可解释性。以往模型回答“图中有25个人”,用户无法验证其准确性;而DeepSeek的模型会同时框出这25个人,用户可以直观判断模型是否漏数、重复数,或是把其他物体误认成人——这种“可视化推理”,让模型的决策过程更透明、更可信。
此外,视觉基元还能提升推理效率。论文中提到,DeepSeek并未依赖大量视觉token来弥补视觉能力,而是通过更高效的视觉token压缩架构,让模型在较低图像token消耗下,依然保持较强的推理能力。比如对于800×800的输入图像,其模型在KV cache中只保留大约90个条目,却能在计数、空间推理等基准测试中,取得有竞争力的表现。
这也体现了DeepSeek的核心思路:不追求“无限提高分辨率、堆更多图像token”,而是让模型更高效地使用视觉信息,聚焦“推理本身”而非“感知细节”。
(二)尚未解决的三大局限
首先,受输入分辨率限制,模型在细粒度场景下的表现仍不够理想,有时会输出不够精确的视觉基元。也就是说,如果图像中的目标非常小、细节非常密集,或是需要识别的区域边界模糊,点和框本身也可能标得不准——视觉基元能改善“指代问题”,但不能完全替代“感知能力”,模型首先要“看清楚”,才能谈得上“指得准”。
其次,这种能力目前还依赖显式触发。论文中提到,当前使用视觉基元进行思考的能力,需要通过明确的触发词来激活;未来,DeepSeek希望模型能根据具体上下文,自主判断是否调用这一机制。这意味着,现在用户如果只是普通提问(比如“这张图里有多少人”),模型可能仍然用普通语言推理,而不会主动输出点、框或路径——距离“自主适配场景”还有一段距离。
最后,拓扑推理仍然是一大难点。论文中坦诚,使用点作为视觉基元来解决复杂拓扑推理问题,仍是一项艰巨挑战,目前模型的跨场景泛化能力也有限。点可以告诉模型“现在走到哪里”,但无法直接表示“这里和那里是否连通”:迷宫中两个点看似很近,中间可能隔着墙;交错线条中,视觉上的交点,未必是同一条路径的延续。模型不仅要标点,还要持续判断连通关系、路径方向和局部几何连续性,只要中间一步出错,后续推理就可能全部偏离。
五、论文删除背后:猜想与展望
DeepSeek这次“发布论文又连夜删除”的罕见操作,引发了行业内的诸多猜测。有人认为,这篇论文中披露的技术,对于开源模型而言“过于强大”,若公开传播,可能影响其核心竞争力,因此选择紧急撤下;也有人推测,论文中可能存在技术细节尚未完善、数据验证不够充分的问题,暂时撤下是为了进一步优化;还有人猜测,这或许是DeepSeek的一种营销策略,通过“消失的论文”引发关注,为后续的功能正式上线铺垫。
真相究竟如何,目前还不得而知,只能等待DeepSeek官方给出明确解释。但不可否认的是,DeepSeek这次提出的“视觉基元”思路,为多模态推理提供了一个全新的方向——它让图像不再只是“输入材料”,而是成为模型推理过程的一部分;模型不只是“看见”世界,更开始学会在世界中找到锚点,实现更严谨、更可验证的视觉推理。
对DeepSeek而言,视觉能力的灰测的只是一个开始,视觉基元也不是终点。如何解决当前的局限,让模型实现“自主触发视觉基元”“提升细粒度感知能力”“强化拓扑推理泛化性”,将是它接下来需要攻克的核心难题。而对于整个多模态领域而言,DeepSeek的尝试,无疑为行业提供了新的思考维度——多模态的未来,或许不只是“多模态的叠加”,更是“多模态的深度融合”,让模型真正学会用人类的方式,观察、思考这个真实的世界。

作者:顺盈注册登录平台




现在致电 8888910 OR 查看更多联系方式 →

顺盈注册登录平台 版权所有