這背后起決定性作用的,并不是簡(jiǎn)單地“模型再放大一點(diǎn)”,而是對(duì)底層架構(gòu)的重新動(dòng)刀。最典型的,就是DeepSeek在V3.2中引入的稀疏注意力機(jī)制(DSA)。
傳統(tǒng)Transformer里,注意力需要讓每個(gè)token和前面幾乎所有token“打招呼”,計(jì)算量隨著上下文長(zhǎng)度呈平方級(jí)攀升,長(zhǎng)上下文一上來,推理成本立刻飆升。DSA做的事,說白了就是:“別再對(duì)所有人一視同仁,把算力先省出來,只算真正有用的那一部分。”
為此,DeepSeek在注意力模塊前加了一層“閃電索引器”(Lightning Indexer)。這個(gè)模塊本身可以用極少的參數(shù)、在FP8這樣的低精度下運(yùn)行,負(fù)責(zé)在極短時(shí)間內(nèi)做一輪粗篩,先找出與當(dāng)前token最關(guān)鍵的一小撮上下文位置,再把主算力集中投向這部分核心token。這樣一套組合拳打下來,注意力的復(fù)雜度從近乎N2,被壓縮到了接近線性。
更關(guān)鍵的是,DeepSeek并沒有一上來就用稀疏結(jié)構(gòu)“硬替換”。在預(yù)訓(xùn)練前期,模型仍然采用標(biāo)準(zhǔn)的密集注意力,而索引器則負(fù)責(zé)在旁邊“學(xué)分布”,逐步擬合原有注意力的權(quán)重模式;等到后期模型穩(wěn)定后,再用稀疏結(jié)構(gòu)從密集注意力手中接管大部分工作。這種“先模仿、再接管”的漸進(jìn)式過渡,使得V3.2在128K甚至更長(zhǎng)上下文下,既大幅減輕了計(jì)算壓力,又沒有明顯犧牲精度。在Fiction.liveBench、AA-LCR等長(zhǎng)文本基準(zhǔn)測(cè)試中,V3.2在信息召回、上下文一致性以及壓縮表達(dá)上的表現(xiàn),均明顯好于上一代。
如果說DSA是在“算得更經(jīng)濟(jì)”,那么另一個(gè)不太容易被外行察覺的關(guān)鍵點(diǎn),則是在“怎么把每一步思考用得更值”。
在V3.2里,DeepSeek首次系統(tǒng)性提出了“Thinking in Tool-Use”的工具使用范式。以前大多數(shù)模型調(diào)用工具的流程,是“想一想→調(diào)工具→給答案”,調(diào)用工具像是插在思維鏈條中間的一塊“硬隔板”。V3.2改造后的執(zhí)行邏輯,則更像是“邊想邊調(diào)”:模型可以先推一段邏輯,再調(diào)一次工具,拿到結(jié)果后繼續(xù)在原來的推理軌跡上接著想,再視情況調(diào)下一次工具……整個(gè)過程交錯(cuò)前進(jìn)。
10月20日,人工智能團(tuán)隊(duì)DeepSeek AI發(fā)布了全新多模態(tài)模型 DeepSeek-OCR
2025-10-20 20:33:14DeepSeek開源新模型DeepSeek-OCR