DeepSeek新模型讓硅谷“失眠” 開源陣營(yíng)的“反擊夜”(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-12-04 13:38:15 澎湃

這背后起決定性作用的，并不是簡(jiǎn)單地“模型再放大一點(diǎn)”，而是對(duì)底層架構(gòu)的重新動(dòng)刀。最典型的，就是DeepSeek在V3.2中引入的稀疏注意力機(jī)制（DSA）。

傳統(tǒng)Transformer里，注意力需要讓每個(gè)token和前面幾乎所有token“打招呼”，計(jì)算量隨著上下文長(zhǎng)度呈平方級(jí)攀升，長(zhǎng)上下文一上來，推理成本立刻飆升。DSA做的事，說白了就是：“別再對(duì)所有人一視同仁，把算力先省出來，只算真正有用的那一部分。”

為此，DeepSeek在注意力模塊前加了一層“閃電索引器”（Lightning Indexer）。這個(gè)模塊本身可以用極少的參數(shù)、在FP8這樣的低精度下運(yùn)行，負(fù)責(zé)在極短時(shí)間內(nèi)做一輪粗篩，先找出與當(dāng)前token最關(guān)鍵的一小撮上下文位置，再把主算力集中投向這部分核心token。這樣一套組合拳打下來，注意力的復(fù)雜度從近乎N2，被壓縮到了接近線性。

更關(guān)鍵的是，DeepSeek并沒有一上來就用稀疏結(jié)構(gòu)“硬替換”。在預(yù)訓(xùn)練前期，模型仍然采用標(biāo)準(zhǔn)的密集注意力，而索引器則負(fù)責(zé)在旁邊“學(xué)分布”，逐步擬合原有注意力的權(quán)重模式；等到后期模型穩(wěn)定后，再用稀疏結(jié)構(gòu)從密集注意力手中接管大部分工作。這種“先模仿、再接管”的漸進(jìn)式過渡，使得V3.2在128K甚至更長(zhǎng)上下文下，既大幅減輕了計(jì)算壓力，又沒有明顯犧牲精度。在Fiction.liveBench、AA-LCR等長(zhǎng)文本基準(zhǔn)測(cè)試中，V3.2在信息召回、上下文一致性以及壓縮表達(dá)上的表現(xiàn)，均明顯好于上一代。

如果說DSA是在“算得更經(jīng)濟(jì)”，那么另一個(gè)不太容易被外行察覺的關(guān)鍵點(diǎn)，則是在“怎么把每一步思考用得更值”。

在V3.2里，DeepSeek首次系統(tǒng)性提出了“Thinking in Tool-Use”的工具使用范式。以前大多數(shù)模型調(diào)用工具的流程，是“想一想→調(diào)工具→給答案”，調(diào)用工具像是插在思維鏈條中間的一塊“硬隔板”。V3.2改造后的執(zhí)行邏輯，則更像是“邊想邊調(diào)”：模型可以先推一段邏輯，再調(diào)一次工具，拿到結(jié)果后繼續(xù)在原來的推理軌跡上接著想，再視情況調(diào)下一次工具……整個(gè)過程交錯(cuò)前進(jìn)。

首頁上一頁 123 4 5...全文共 7 頁下一頁

關(guān)閉

DeepSeek新模型讓硅谷“失眠” 開源陣營(yíng)的“反擊夜”(2)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)