DeepSeek開源新模型DeepSeek-OCR 探索視覺(jué)-文本壓縮邊界

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-10-20 20:33:14 鞭牛士

10月20日，人工智能團(tuán)隊(duì)DeepSeek AI發(fā)布了全新多模態(tài)模型 DeepSeek-OCR。該模型以“探索視覺(jué) - 文本壓縮邊界”為核心目標(biāo)，從大語(yǔ)言模型視角重新定義了視覺(jué)編碼器的功能定位，為文檔識(shí)別、圖像轉(zhuǎn)文本等高頻場(chǎng)景提供了兼顧精度與效率的新解決方案，受到技術(shù)領(lǐng)域和行業(yè)應(yīng)用端的廣泛關(guān)注。

DeepSeek-OCR采用分層設(shè)計(jì)的視覺(jué)編碼方案，支持Tiny、Small、Base、Large、Gundam五種尺寸配置，可根據(jù)不同硬件條件與場(chǎng)景需求靈活選擇。Gundam版本特別針對(duì)大尺寸復(fù)雜文檔進(jìn)行了優(yōu)化，采用了1024×640混合尺寸配置及專屬裁剪模式，能更精準(zhǔn)處理多欄排版、圖文混雜的專業(yè)文檔。

模型創(chuàng)新性地融合了SAM（Segment Anything Model）的圖像分割能力和CLIP的視覺(jué)理解能力，并通過(guò)MlpProjector模塊實(shí)現(xiàn)與語(yǔ)言模型的高效對(duì)接。這一設(shè)計(jì)不僅使模型能夠精準(zhǔn)提取文本內(nèi)容，還能同步捕捉文字、表格、圖像在原圖中的空間布局信息，為后續(xù)結(jié)構(gòu)化輸出提供關(guān)鍵支撐，解決了傳統(tǒng)OCR“只認(rèn)文字、不識(shí)布局”的痛點(diǎn)。

DeepSeek-OCR展現(xiàn)出極強(qiáng)的多場(chǎng)景適應(yīng)性。它既支持單張圖像、PDF文檔的單次處理，也能應(yīng)對(duì)批量圖像的高效識(shí)別，所有輸出結(jié)果均支持Markdown格式，方便用戶直接編輯或?qū)肫渌k公軟件。模型內(nèi)置邊界框檢測(cè)功能，可精準(zhǔn)定位文本塊、表格、插圖在原圖中的位置，結(jié)合動(dòng)態(tài)裁剪策略，根據(jù)圖像尺寸自動(dòng)調(diào)整處理邏輯，在保證識(shí)別精度的同時(shí)大幅提升處理速度。

此外，DeepSeek-OCR集成vllm框架實(shí)現(xiàn)高效推理，支持多任務(wù)并發(fā)處理，即便面對(duì)大規(guī)模文檔處理需求，也能保持穩(wěn)定的響應(yīng)效率，尤其適合學(xué)術(shù)論文、企業(yè)報(bào)表、個(gè)人簡(jiǎn)歷等復(fù)雜文檔的數(shù)字化轉(zhuǎn)化場(chǎng)景。

12 全文共 2 頁(yè)下一頁(yè)

關(guān)閉

DeepSeek開源新模型DeepSeek-OCR 探索視覺(jué)-文本壓縮邊界

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)