這種壓縮方法或許能大幅擴(kuò)展模型的有效上下文長度,特別是與DeepSeek幾周前發(fā)布的稀疏注意力機(jī)制論文結(jié)合時(shí)。盡管谷歌可能已經(jīng)掌握了類似技術(shù),但DeepSeek選擇完全開源,包括模型權(quán)重和方法細(xì)節(jié),使得任何人都可以試驗(yàn)并進(jìn)一步探索這一突破。
Hacker News等平臺(tái)上,DeepSeek-OCR引發(fā)了廣泛討論。Django Web框架的聯(lián)合創(chuàng)建者Simon Willison成功在英偉達(dá)Spark硬件上運(yùn)行了該模型,整個(gè)過程僅用了40分鐘。科技視頻播主NiceKate AI也將其部署到了Mac上。
不過,一些研究者指出,DeepSeek的新模型雖然工程上取得了巨大成功,但其核心思路并非首創(chuàng)。早在2022年,哥本哈根大學(xué)等機(jī)構(gòu)的論文《Language Modelling with Pixels》就提出了基于像素的語言編碼器PIXEL,旨在解決語言模型的詞匯瓶頸問題。此后,還有多篇研究成果對這一思路進(jìn)行了發(fā)展和改進(jìn)。
盡管如此,DeepSeek-OCR確實(shí)是一個(gè)非常實(shí)用的模型,已有不少先行者開始使用。但也有人批評其方法缺乏漸進(jìn)性。無論如何,DeepSeek-OCR的發(fā)布無疑為大模型領(lǐng)域帶來了新的思考方向。
10月20日,人工智能團(tuán)隊(duì)DeepSeek AI發(fā)布了全新多模態(tài)模型 DeepSeek-OCR
2025-10-20 20:33:14DeepSeek開源新模型DeepSeek-OCR5月28日,DeepSeek官方宣布,DeepSeek R1模型已完成小版本試升級。用戶可以前往官方網(wǎng)頁、APP或小程序測試新功能,API接口和使用方式保持不變
2025-05-29 08:41:18DeepSeekR1模型已完成小版本試升級