DeepSeek上線識圖模式視覺理解新突破

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-04-29 18:52:50 觀察者網(wǎng)

4月28日上午，DeepSeek多模態(tài)團(tuán)隊(duì)研究員陳小康在X賬號@PKUCXK上發(fā)布了一條推文：“Soon, we see you. ?”，配圖是兩只藍(lán)色的小鯨魚，左邊那只戴著畫有“XX”的黑色眼罩，右邊那只沒戴眼罩、正常露出眼睛。盡管這條推文很快被刪除，但可能暗示DeepSeek的多模態(tài)功能即將上線。

此外，有用戶截圖顯示，chat.deepseek.com輸入框上方曾出現(xiàn)過三個(gè)并列的標(biāo)簽——除了原有的“快速模式”和“專家模式”，還多出了一個(gè)“識圖模式”，鼠標(biāo)懸停后提示“圖片理解功能內(nèi)測中”。這是DeepSeek出圈以來第一次在主線產(chǎn)品里把視覺理解作為獨(dú)立模式呈現(xiàn)。不過這個(gè)標(biāo)簽并不是所有用戶都能看到，目前也無法確認(rèn)它是常態(tài)化的灰度內(nèi)測還是短暫開放后又被回收，官方至今沒有對外說明。

根據(jù)該用戶的測試信息，在試圖模式里，用戶上傳了一張人物照片并提問“這是什么動(dòng)作姿勢”。DeepSeek思考8秒后，先按位置、手臂、頭部、頭發(fā)、著裝、光影逐項(xiàng)拆解了畫面，再給出最終判斷：這是攝影和社交媒體語境里的“慵懶風(fēng)躺姿”或“清冷氛圍感姿勢”，常出現(xiàn)在小紅書、抖音的“宅家”、“慵懶風(fēng)”、“清冷感”等標(biāo)簽下。值得注意的是，這段思考過程中有一步明確的“自我修正考慮”，模型先列出其他可能的解讀，再判斷“慵懶氛圍感姿勢”是最能涵蓋所有細(xì)節(jié)的描述，最后輸出。這種結(jié)構(gòu)化拆解、自我復(fù)核加文化語境識別的組合，已經(jīng)超出DeepSeek過去主線產(chǎn)品上的“圖片識文字”能力層次。

V2EX網(wǎng)友MichaelBitzo 4月29日下午發(fā)帖稱DeepSeek API已經(jīng)返回“識圖模式”字段，但其他用戶實(shí)測反饋仍不可用。這意味著接口側(cè)的字段已經(jīng)存在，但調(diào)用尚未對外開放。

DeepSeek-V4預(yù)覽版于4月24日上線，陳小康那條推文發(fā)布于4月28日，距離V4只隔了四天。多模態(tài)團(tuán)隊(duì)負(fù)責(zé)人發(fā)出預(yù)告，主線產(chǎn)品冒出新tab，對話分享鏈接生效，API字段返回——這些都指向DeepSeek正在為主線產(chǎn)品裝上視覺理解能力。但具體什么時(shí)候正式開閘、是否還會在五一假期前后落地，截至發(fā)稿尚無官方時(shí)間表。

V4本身沒有原生多模態(tài)。4月24日發(fā)布當(dāng)天，DeepSeek官方對V4的定義集中在百萬級長上下文、Agent能力和推理性能三件事上。媒體復(fù)盤認(rèn)為V4在長上下文成本、Coding和Agent任務(wù)上達(dá)到了開源模型的第一梯隊(duì)，但缺乏原生多模態(tài)是明顯的短板。

然而，DeepSeek的研究側(cè)并沒有停止多模態(tài)研究。陳小康博士畢業(yè)于北京大學(xué)，2024年加入DeepSeek，主導(dǎo)多模態(tài)預(yù)訓(xùn)練和后訓(xùn)練工作。從他的Google學(xué)術(shù)頁可以數(shù)出一長串相關(guān)成果，包括2024年12月開源的DeepSeek-VL2、2025年發(fā)布的Janus和JanusFlow，以及春節(jié)前后開源的Janus-Pro。其中Janus-Pro在GenEval圖像生成基準(zhǔn)上超過了DALLE-3和Stable Diffusion 3，是當(dāng)時(shí)開源多模態(tài)陣營里最受關(guān)注的成果之一。

也就是說，DeepSeek多模態(tài)團(tuán)隊(duì)的論文和開源模型一直在出，缺的只是把這些能力接到主線產(chǎn)品上。V4之前，DeepSeek主線產(chǎn)品里與“看圖”有關(guān)的功能只有OCR調(diào)用，不是真正意義上的視覺理解。這一次冒出來的“識圖模式”，從沃垠那段對話case看，已經(jīng)超出文字識別的層次，進(jìn)入到畫面語義、空間結(jié)構(gòu)、氛圍審美和文化語境的判斷這一層。

事實(shí)上，鋪墊早在4月初就開始了。4月8日，DeepSeek網(wǎng)頁端在輸入框上方第一次新增了“快速模式”和“專家模式”兩個(gè)圖標(biāo)，這是DeepSeek出圈以來第一次在產(chǎn)品界面里做能力分層。愛范兒當(dāng)時(shí)的實(shí)測稿援引技術(shù)KOL Teortaxes的判斷：如果Vision模式真的上線，背后支撐它的很可能已經(jīng)是一個(gè)完全功能化的VLM，甚至是Janus系列的下一步演化。

從4月8日的分層入口，到4月24日V4純文本發(fā)布，再到4月28日陳小康那條已被刪除的預(yù)告，到4月29日“識圖模式”在網(wǎng)頁端、對話分享和API三個(gè)層面同時(shí)冒頭——這是一條連續(xù)的產(chǎn)品節(jié)奏，只是DeepSeek自己暫時(shí)還沒把它說出來。

DeepSeek多模態(tài)團(tuán)隊(duì)近年也并非沒有人員變動(dòng)。據(jù)公開消息，DeepSeek多模態(tài)核心貢獻(xiàn)者阮翀今年4月加盟自動(dòng)駕駛公司元戎啟行任首席科學(xué)家，DeepSeek-OCR系列核心作者魏浩然也在春節(jié)前后離職。在這些變動(dòng)之后，多模態(tài)團(tuán)隊(duì)的產(chǎn)品化進(jìn)度依然推進(jìn)到當(dāng)前節(jié)點(diǎn)，本身也是一個(gè)值得記錄的信息。

DeepSeek把識圖能力送上主線產(chǎn)品的時(shí)間點(diǎn)，落在一個(gè)比較特殊的行業(yè)拐點(diǎn)上。國內(nèi)主要模型公司的多模態(tài)布局已經(jīng)基本鋪齊。阿里巴巴的Qwen系列推出了多代Qwen-VL視覺語言模型；智譜的GLM-V貫穿GLM-4和GLM-5兩代；字節(jié)跳動(dòng)和階躍星辰把“全模態(tài)”作為核心定位，階躍年初的Step 3.5 Flash把全模態(tài)能力首次開源；月之暗面的Kimi同步在視覺理解和Coding兩條線并行；MiniMax在保持語言模型能力的同時(shí)把視頻生成模型作為差異化優(yōu)勢。騰訊混元4月23日發(fā)布的Hy3 preview則把對標(biāo)目標(biāo)定為DeepSeek和阿里。換句話說，國內(nèi)頭部模型公司里，主線產(chǎn)品上沒有視覺理解能力的，目前只剩DeepSeek一家。

DeepSeek這次一旦正式開閘，意味著這條尾巴也合上了。中國頭部模型公司全員“睜眼”，這是2026年模型層一個(gè)比較結(jié)構(gòu)性的變化。

讓這件事變得更緊迫的是Agent。V4發(fā)布稿里，DeepSeek官方明確提到針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent產(chǎn)品做了適配優(yōu)化，Agent能力是V4三個(gè)核心賣點(diǎn)之一。但純文本Agent的能力上限有限，當(dāng)Agent需要操作瀏覽器、讀截圖、看儀表盤、識別UI元素、處理圖表和PDF時(shí)，沒有視覺理解就無法完成閉環(huán)。這也是過去半年Computer Use、屏幕操作Agent這類產(chǎn)品集中冒出來的原因。

智譜的AutoClaw、阿里云的Coding Plan、Anthropic的Computer Use，在底層邏輯上共享一個(gè)判斷：Agent要真正進(jìn)入生產(chǎn)力場景，視覺能力是基礎(chǔ)設(shè)施而不是錦上添花。從這個(gè)角度看，DeepSeek這次給主線產(chǎn)品裝上識圖能力，更接近補(bǔ)一張入場券，而不是單純補(bǔ)短板。

不過具體效果還得等正式開閘之后看。沃垠流出的那個(gè)case里，DeepSeek識圖模型表現(xiàn)出了畫面拆解、自我復(fù)核和文化語境識別的能力，但單點(diǎn)case不能替代系統(tǒng)性測評。和Qwen-VL、GLM-V、Step的多模態(tài)版本相比能拉開多少差距，能不能接住開源社區(qū)對DeepSeek一貫的“打榜”期待，目前都沒有可對比的數(shù)據(jù)。

另一個(gè)待觀察的懸念是開源策略。DeepSeek過去把所有大版本模型都做了開源——包括VL、VL2、Janus系列。如果這次的識圖能力最終也走開源路線，開源多模態(tài)陣營會再增加一個(gè)旗艦玩家；如果走閉源或半開源路線，則意味著DeepSeek在多模態(tài)商業(yè)化路徑上做了一次和過去不同的選擇?？紤]到DeepSeek正在以超過200億美元估值尋求融資，路徑選擇的信號意義不會小。

(責(zé)任編輯：zhangxiaohua)

關(guān)閉

DeepSeek上線識圖模式 視覺理解新突破

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

DeepSeek上線識圖模式視覺理解新突破