10月20日,人工智能團(tuán)隊(duì)DeepSeek AI發(fā)布了全新多模態(tài)模型 DeepSeek-OCR。該模型以“探索視覺(jué) - 文本壓縮邊界”為核心目標(biāo),從大語(yǔ)言模型視角重新定義了視覺(jué)編碼器的功能定位,為文檔識(shí)別、圖像轉(zhuǎn)文本等高頻場(chǎng)景提供了兼顧精度與效率的新解決方案,受到技術(shù)領(lǐng)域和行業(yè)應(yīng)用端的廣泛關(guān)注。
DeepSeek-OCR采用分層設(shè)計(jì)的視覺(jué)編碼方案,支持Tiny、Small、Base、Large、Gundam五種尺寸配置,可根據(jù)不同硬件條件與場(chǎng)景需求靈活選擇。Gundam版本特別針對(duì)大尺寸復(fù)雜文檔進(jìn)行了優(yōu)化,采用了1024×640混合尺寸配置及專屬裁剪模式,能更精準(zhǔn)處理多欄排版、圖文混雜的專業(yè)文檔。
模型創(chuàng)新性地融合了SAM(Segment Anything Model)的圖像分割能力和CLIP的視覺(jué)理解能力,并通過(guò)MlpProjector模塊實(shí)現(xiàn)與語(yǔ)言模型的高效對(duì)接。這一設(shè)計(jì)不僅使模型能夠精準(zhǔn)提取文本內(nèi)容,還能同步捕捉文字、表格、圖像在原圖中的空間布局信息,為后續(xù)結(jié)構(gòu)化輸出提供關(guān)鍵支撐,解決了傳統(tǒng)OCR“只認(rèn)文字、不識(shí)布局”的痛點(diǎn)。
DeepSeek-OCR展現(xiàn)出極強(qiáng)的多場(chǎng)景適應(yīng)性。它既支持單張圖像、PDF文檔的單次處理,也能應(yīng)對(duì)批量圖像的高效識(shí)別,所有輸出結(jié)果均支持Markdown格式,方便用戶直接編輯或?qū)肫渌k公軟件。模型內(nèi)置邊界框檢測(cè)功能,可精準(zhǔn)定位文本塊、表格、插圖在原圖中的位置,結(jié)合動(dòng)態(tài)裁剪策略,根據(jù)圖像尺寸自動(dòng)調(diào)整處理邏輯,在保證識(shí)別精度的同時(shí)大幅提升處理速度。
此外,DeepSeek-OCR集成vllm框架實(shí)現(xiàn)高效推理,支持多任務(wù)并發(fā)處理,即便面對(duì)大規(guī)模文檔處理需求,也能保持穩(wěn)定的響應(yīng)效率,尤其適合學(xué)術(shù)論文、企業(yè)報(bào)表、個(gè)人簡(jiǎn)歷等復(fù)雜文檔的數(shù)字化轉(zhuǎn)化場(chǎng)景。