DeepSeek灰測識(shí)圖模式 多模態(tài)識(shí)別新突破!DeepSeek正在進(jìn)行一項(xiàng)名為“識(shí)圖模式”的灰度測試。這項(xiàng)新功能與現(xiàn)有的“快速模式”和“專家模式”并列,具備多模態(tài)識(shí)別能力,而不僅僅是OCR文字識(shí)別。部分用戶已嘗試上傳食品包裝、概念手機(jī)圖片等,系統(tǒng)能夠準(zhǔn)確識(shí)別品牌、成分以及設(shè)計(jì)特征,并提供實(shí)用建議。
DeepSeek多模態(tài)團(tuán)隊(duì)研究員陳小康在X平臺(tái)上發(fā)布了一條動(dòng)態(tài),配文“Now, we see you”,并附上一張鯨魚摘下眼罩的圖片,被廣泛認(rèn)為是官方確認(rèn)多模態(tài)功能上線的信號(hào)。有用戶曬出的圖片顯示,灰度到的用戶可以上傳圖片讓DeepSeek描述內(nèi)容。一些用戶反饋稱,處理速度很快,但也有用戶表示觸發(fā)了識(shí)圖模式界面后卻收到“識(shí)圖模式暫不可用,請(qǐng)稍后再試”的提示。
測試結(jié)果顯示,該模型會(huì)分步驟輸出:首先分析用戶需求,然后檢查圖像,最后生成解讀結(jié)果。這項(xiàng)功能基于多模態(tài)技術(shù),即視覺與語言的融合,使AI能夠理解圖片中的語義和邏輯關(guān)系。據(jù)技術(shù)爆料,其底層可能采用了DeepSeek—OCR2的視覺因果流機(jī)制,從而實(shí)現(xiàn)對(duì)復(fù)雜圖表和文檔的理解更加準(zhǔn)確。
目前,這一功能仍處于小范圍灰度測試階段,尚未全面開放,未被灰度到的用戶暫時(shí)無法使用。關(guān)于API是否同步開放,官方尚未公布具體信息。