4月28日上午,DeepSeek多模態(tài)團(tuán)隊(duì)研究員陳小康在X賬號@PKUCXK上發(fā)布了一條推文:“Soon, we see you. ?”,配圖是兩只藍(lán)色的小鯨魚,左邊那只戴著畫有“XX”的黑色眼罩,右邊那只沒戴眼罩、正常露出眼睛。盡管這條推文很快被刪除,但可能暗示DeepSeek的多模態(tài)功能即將上線。
此外,有用戶截圖顯示,chat.deepseek.com輸入框上方曾出現(xiàn)過三個(gè)并列的標(biāo)簽——除了原有的“快速模式”和“專家模式”,還多出了一個(gè)“識圖模式”,鼠標(biāo)懸停后提示“圖片理解功能內(nèi)測中”。這是DeepSeek出圈以來第一次在主線產(chǎn)品里把視覺理解作為獨(dú)立模式呈現(xiàn)。不過這個(gè)標(biāo)簽并不是所有用戶都能看到,目前也無法確認(rèn)它是常態(tài)化的灰度內(nèi)測還是短暫開放后又被回收,官方至今沒有對外說明。
根據(jù)該用戶的測試信息,在試圖模式里,用戶上傳了一張人物照片并提問“這是什么動(dòng)作姿勢”。DeepSeek思考8秒后,先按位置、手臂、頭部、頭發(fā)、著裝、光影逐項(xiàng)拆解了畫面,再給出最終判斷:這是攝影和社交媒體語境里的“慵懶風(fēng)躺姿”或“清冷氛圍感姿勢”,常出現(xiàn)在小紅書、抖音的“宅家”、“慵懶風(fēng)”、“清冷感”等標(biāo)簽下。值得注意的是,這段思考過程中有一步明確的“自我修正考慮”,模型先列出其他可能的解讀,再判斷“慵懶氛圍感姿勢”是最能涵蓋所有細(xì)節(jié)的描述,最后輸出。這種結(jié)構(gòu)化拆解、自我復(fù)核加文化語境識別的組合,已經(jīng)超出DeepSeek過去主線產(chǎn)品上的“圖片識文字”能力層次。
V2EX網(wǎng)友MichaelBitzo 4月29日下午發(fā)帖稱DeepSeek API已經(jīng)返回“識圖模式”字段,但其他用戶實(shí)測反饋仍不可用。這意味著接口側(cè)的字段已經(jīng)存在,但調(diào)用尚未對外開放。
DeepSeek-V4預(yù)覽版于4月24日上線,陳小康那條推文發(fā)布于4月28日,距離V4只隔了四天。多模態(tài)團(tuán)隊(duì)負(fù)責(zé)人發(fā)出預(yù)告,主線產(chǎn)品冒出新tab,對話分享鏈接生效,API字段返回——這些都指向DeepSeek正在為主線產(chǎn)品裝上視覺理解能力。但具體什么時(shí)候正式開閘、是否還會在五一假期前后落地,截至發(fā)稿尚無官方時(shí)間表。
V4本身沒有原生多模態(tài)。4月24日發(fā)布當(dāng)天,DeepSeek官方對V4的定義集中在百萬級長上下文、Agent能力和推理性能三件事上。媒體復(fù)盤認(rèn)為V4在長上下文成本、Coding和Agent任務(wù)上達(dá)到了開源模型的第一梯隊(duì),但缺乏原生多模態(tài)是明顯的短板。
然而,DeepSeek的研究側(cè)并沒有停止多模態(tài)研究。陳小康博士畢業(yè)于北京大學(xué),2024年加入DeepSeek,主導(dǎo)多模態(tài)預(yù)訓(xùn)練和后訓(xùn)練工作。從他的Google學(xué)術(shù)頁可以數(shù)出一長串相關(guān)成果,包括2024年12月開源的DeepSeek-VL2、2025年發(fā)布的Janus和JanusFlow,以及春節(jié)前后開源的Janus-Pro。其中Janus-Pro在GenEval圖像生成基準(zhǔn)上超過了DALLE-3和Stable Diffusion 3,是當(dāng)時(shí)開源多模態(tài)陣營里最受關(guān)注的成果之一。
也就是說,DeepSeek多模態(tài)團(tuán)隊(duì)的論文和開源模型一直在出,缺的只是把這些能力接到主線產(chǎn)品上。V4之前,DeepSeek主線產(chǎn)品里與“看圖”有關(guān)的功能只有OCR調(diào)用,不是真正意義上的視覺理解。這一次冒出來的“識圖模式”,從沃垠那段對話case看,已經(jīng)超出文字識別的層次,進(jìn)入到畫面語義、空間結(jié)構(gòu)、氛圍審美和文化語境的判斷這一層。
事實(shí)上,鋪墊早在4月初就開始了。4月8日,DeepSeek網(wǎng)頁端在輸入框上方第一次新增了“快速模式”和“專家模式”兩個(gè)圖標(biāo),這是DeepSeek出圈以來第一次在產(chǎn)品界面里做能力分層。愛范兒當(dāng)時(shí)的實(shí)測稿援引技術(shù)KOL Teortaxes的判斷:如果Vision模式真的上線,背后支撐它的很可能已經(jīng)是一個(gè)完全功能化的VLM,甚至是Janus系列的下一步演化。
從4月8日的分層入口,到4月24日V4純文本發(fā)布,再到4月28日陳小康那條已被刪除的預(yù)告,到4月29日“識圖模式”在網(wǎng)頁端、對話分享和API三個(gè)層面同時(shí)冒頭——這是一條連續(xù)的產(chǎn)品節(jié)奏,只是DeepSeek自己暫時(shí)還沒把它說出來。
DeepSeek多模態(tài)團(tuán)隊(duì)近年也并非沒有人員變動(dòng)。據(jù)公開消息,DeepSeek多模態(tài)核心貢獻(xiàn)者阮翀今年4月加盟自動(dòng)駕駛公司元戎啟行任首席科學(xué)家,DeepSeek-OCR系列核心作者魏浩然也在春節(jié)前后離職。在這些變動(dòng)之后,多模態(tài)團(tuán)隊(duì)的產(chǎn)品化進(jìn)度依然推進(jìn)到當(dāng)前節(jié)點(diǎn),本身也是一個(gè)值得記錄的信息。
DeepSeek把識圖能力送上主線產(chǎn)品的時(shí)間點(diǎn),落在一個(gè)比較特殊的行業(yè)拐點(diǎn)上。國內(nèi)主要模型公司的多模態(tài)布局已經(jīng)基本鋪齊。阿里巴巴的Qwen系列推出了多代Qwen-VL視覺語言模型;智譜的GLM-V貫穿GLM-4和GLM-5兩代;字節(jié)跳動(dòng)和階躍星辰把“全模態(tài)”作為核心定位,階躍年初的Step 3.5 Flash把全模態(tài)能力首次開源;月之暗面的Kimi同步在視覺理解和Coding兩條線并行;MiniMax在保持語言模型能力的同時(shí)把視頻生成模型作為差異化優(yōu)勢。騰訊混元4月23日發(fā)布的Hy3 preview則把對標(biāo)目標(biāo)定為DeepSeek和阿里。換句話說,國內(nèi)頭部模型公司里,主線產(chǎn)品上沒有視覺理解能力的,目前只剩DeepSeek一家。
DeepSeek這次一旦正式開閘,意味著這條尾巴也合上了。中國頭部模型公司全員“睜眼”,這是2026年模型層一個(gè)比較結(jié)構(gòu)性的變化。
讓這件事變得更緊迫的是Agent。V4發(fā)布稿里,DeepSeek官方明確提到針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent產(chǎn)品做了適配優(yōu)化,Agent能力是V4三個(gè)核心賣點(diǎn)之一。但純文本Agent的能力上限有限,當(dāng)Agent需要操作瀏覽器、讀截圖、看儀表盤、識別UI元素、處理圖表和PDF時(shí),沒有視覺理解就無法完成閉環(huán)。這也是過去半年Computer Use、屏幕操作Agent這類產(chǎn)品集中冒出來的原因。
智譜的AutoClaw、阿里云的Coding Plan、Anthropic的Computer Use,在底層邏輯上共享一個(gè)判斷:Agent要真正進(jìn)入生產(chǎn)力場景,視覺能力是基礎(chǔ)設(shè)施而不是錦上添花。從這個(gè)角度看,DeepSeek這次給主線產(chǎn)品裝上識圖能力,更接近補(bǔ)一張入場券,而不是單純補(bǔ)短板。
不過具體效果還得等正式開閘之后看。沃垠流出的那個(gè)case里,DeepSeek識圖模型表現(xiàn)出了畫面拆解、自我復(fù)核和文化語境識別的能力,但單點(diǎn)case不能替代系統(tǒng)性測評。和Qwen-VL、GLM-V、Step的多模態(tài)版本相比能拉開多少差距,能不能接住開源社區(qū)對DeepSeek一貫的“打榜”期待,目前都沒有可對比的數(shù)據(jù)。
另一個(gè)待觀察的懸念是開源策略。DeepSeek過去把所有大版本模型都做了開源——包括VL、VL2、Janus系列。如果這次的識圖能力最終也走開源路線,開源多模態(tài)陣營會再增加一個(gè)旗艦玩家;如果走閉源或半開源路線,則意味著DeepSeek在多模態(tài)商業(yè)化路徑上做了一次和過去不同的選擇??紤]到DeepSeek正在以超過200億美元估值尋求融資,路徑選擇的信號意義不會小。