电竞下注-中国电竞赛事及体育赛事平台

中華網(wǎng) china.com

新聞

DeepSeek新模型讓硅谷“失眠” 開源陣營(yíng)的“反擊夜”(2)

關(guān)鍵詞:
2025-12-04 13:38:15  澎湃

這背后起決定性作用的,并不是簡(jiǎn)單地“模型再放大一點(diǎn)”,而是對(duì)底層架構(gòu)的重新動(dòng)刀。最典型的,就是DeepSeek在V3.2中引入的稀疏注意力機(jī)制(DSA)。

傳統(tǒng)Transformer里,注意力需要讓每個(gè)token和前面幾乎所有token“打招呼”,計(jì)算量隨著上下文長(zhǎng)度呈平方級(jí)攀升,長(zhǎng)上下文一上來,推理成本立刻飆升。DSA做的事,說白了就是:“別再對(duì)所有人一視同仁,把算力先省出來,只算真正有用的那一部分。”

為此,DeepSeek在注意力模塊前加了一層“閃電索引器”(Lightning Indexer)。這個(gè)模塊本身可以用極少的參數(shù)、在FP8這樣的低精度下運(yùn)行,負(fù)責(zé)在極短時(shí)間內(nèi)做一輪粗篩,先找出與當(dāng)前token最關(guān)鍵的一小撮上下文位置,再把主算力集中投向這部分核心token。這樣一套組合拳打下來,注意力的復(fù)雜度從近乎N2,被壓縮到了接近線性。

更關(guān)鍵的是,DeepSeek并沒有一上來就用稀疏結(jié)構(gòu)“硬替換”。在預(yù)訓(xùn)練前期,模型仍然采用標(biāo)準(zhǔn)的密集注意力,而索引器則負(fù)責(zé)在旁邊“學(xué)分布”,逐步擬合原有注意力的權(quán)重模式;等到后期模型穩(wěn)定后,再用稀疏結(jié)構(gòu)從密集注意力手中接管大部分工作。這種“先模仿、再接管”的漸進(jìn)式過渡,使得V3.2在128K甚至更長(zhǎng)上下文下,既大幅減輕了計(jì)算壓力,又沒有明顯犧牲精度。在Fiction.liveBench、AA-LCR等長(zhǎng)文本基準(zhǔn)測(cè)試中,V3.2在信息召回、上下文一致性以及壓縮表達(dá)上的表現(xiàn),均明顯好于上一代。

如果說DSA是在“算得更經(jīng)濟(jì)”,那么另一個(gè)不太容易被外行察覺的關(guān)鍵點(diǎn),則是在“怎么把每一步思考用得更值”。

在V3.2里,DeepSeek首次系統(tǒng)性提出了“Thinking in Tool-Use”的工具使用范式。以前大多數(shù)模型調(diào)用工具的流程,是“想一想→調(diào)工具→給答案”,調(diào)用工具像是插在思維鏈條中間的一塊“硬隔板”。V3.2改造后的執(zhí)行邏輯,則更像是“邊想邊調(diào)”:模型可以先推一段邏輯,再調(diào)一次工具,拿到結(jié)果后繼續(xù)在原來的推理軌跡上接著想,再視情況調(diào)下一次工具……整個(gè)過程交錯(cuò)前進(jìn)。

關(guān)閉

日本網(wǎng)站回應(yīng)招聘抹黑中國(guó)人劇本寫手 違規(guī)信息已被下架

日本網(wǎng)站回應(yīng)招聘抹黑中國(guó)人劇本寫手2025-12-04 13:37:47

東南亞的這輪暴雨為何這么“兇”?三百年一遇的暴擊

東南亞的這輪暴雨為何這么兇"2025-12-04 13:35:58

特朗普心腹將會(huì)見烏方代表 通報(bào)莫斯科會(huì)談情況

特朗普心腹將會(huì)見烏方代表2025-12-04 13:35:28

北京明后兩天晴朗氣溫回升 早晚寒冷注意保暖 午間適宜戶外活動(dòng)

北京明后兩天晴朗氣溫回升早晚寒冷注意保暖2025-12-04 13:33:22

大國(guó)五年|澎湃內(nèi)需,鑄就發(fā)展主錨 消費(fèi)引擎強(qiáng)勁驅(qū)動(dòng)

大國(guó)五年|澎湃內(nèi)需,鑄就發(fā)展主錨2025-12-04 13:26:01

日本著急替馬克龍做決定!

日本著急替馬克龍做決定2025-12-04 13:20:00

小伙埋頭吃羊排頭發(fā)著火還不忘點(diǎn)贊!

小伙埋頭吃羊排頭發(fā)著火還不忘點(diǎn)贊2025-12-04 13:18:38

高市早苗的玩梗式營(yíng)銷翻車 外交場(chǎng)合失分寸

高市早苗的玩梗式營(yíng)銷翻車2025-12-04 11:51:05

馬克龍?jiān)L華,為何去成都?:探尋合作新窗口

馬克龍?jiān)L華,為何去成都2025-12-04 13:23:21

日本網(wǎng)站回應(yīng)招聘抹黑中國(guó)人劇本寫手 違規(guī)信息已被下架

日本網(wǎng)站回應(yīng)招聘抹黑中國(guó)人劇本寫手2025-12-04 13:37:47

日本宮古島居民擔(dān)心島嶼變戰(zhàn)場(chǎng) 安全與生存的錯(cuò)位

日本宮古島居民擔(dān)心島嶼變戰(zhàn)場(chǎng)2025-12-04 13:30:41

失去親信的澤連斯基還能堅(jiān)持多久 生死抉擇

失去親信的澤連斯基還能堅(jiān)持多久2025-12-04 13:05:10

中國(guó)準(zhǔn)航母艦隊(duì)或繞澳航行 澳海軍無法應(yīng)對(duì) 實(shí)力懸殊引發(fā)擔(dān)憂

中國(guó)準(zhǔn)航母艦隊(duì)或繞澳航行澳海軍無法應(yīng)對(duì)2025-12-04 13:31:09

美媒:美國(guó)議員首次公開一批愛潑斯坦私人島嶼的照片與視頻

愛潑斯坦私人島嶼的照片被公開2025-12-04 11:53:26

烏狙擊手平原上穿著偽裝衣一動(dòng)不動(dòng) 被俄無人機(jī)瞬間發(fā)現(xiàn)遭襲身亡

烏狙擊手平原上穿著偽裝衣一動(dòng)不動(dòng) 被俄無人機(jī)瞬間發(fā)現(xiàn)遭襲身亡2025-12-04 11:50:17

辦公電腦里的聊天記錄被公司擅自恢復(fù),該由誰做主?

辦公電腦里的聊天記錄被公司擅自恢復(fù)2025-12-04 13:23:37

王曼昱采訪結(jié)束試圖鉆圍欄離場(chǎng) 王曼昱是不是忘了自己的身高

王曼昱采訪結(jié)束試圖鉆圍欄離場(chǎng)2025-12-04 13:20:53

特朗普心腹將會(huì)見烏方代表 通報(bào)莫斯科會(huì)談情況

特朗普心腹將會(huì)見烏方代表2025-12-04 13:35:28

鈞正平:誰在為日本軍國(guó)主義“招魂” 復(fù)活的幽靈再現(xiàn)

鈞正平,誰在為日本軍國(guó)主義招魂2025-12-04 13:10:19

女子跟風(fēng)做趾壓板超慢跑腳底噴血 健身變傷身

女子跟風(fēng)做趾壓板超慢跑腳底噴血2025-12-04 13:31:26

美國(guó)若對(duì)委內(nèi)瑞拉動(dòng)武面臨哪些問題 師出無名且代價(jià)高昂

美國(guó)若對(duì)委內(nèi)瑞拉動(dòng)武面臨哪些問題2025-12-04 11:54:55

美飛行表演隊(duì)F-16墜毀背后有何原因 維護(hù)與管理挑戰(zhàn)

美飛行表演隊(duì)F-16墜毀背后有何原因2025-12-04 11:51:46

埃爾多安譴責(zé)烏克蘭 局勢(shì)升級(jí)威脅黑海安全

埃爾多安譴責(zé)烏克蘭2025-12-04 13:28:50

我國(guó)科學(xué)家取得量子研究新進(jìn)展 實(shí)現(xiàn)愛因斯坦思想實(shí)驗(yàn)

我國(guó)科學(xué)家取得量子研究新進(jìn)展2025-12-04 13:26:20

丈夫被精神病人殺害妻子憶事發(fā)過程!

丈夫被精神病人殺害妻子憶事發(fā)過程2025-12-04 13:30:39

很快開展陸上打擊?美威脅加劇,知情人士:馬杜羅每夜更換睡覺地點(diǎn) 局勢(shì)緊張升級(jí)

很快開展陸上打擊,美威脅加劇,知情人士,馬杜羅每夜更換睡覺地點(diǎn)2025-12-04 11:53:43

日本學(xué)者:高市破壞《中日聯(lián)合聲明》干涉中國(guó)內(nèi)政

日本學(xué)者,高市破壞中日聯(lián)合聲明2025-12-04 11:53:03

日本持續(xù)推進(jìn)核污染水排海!

日本持續(xù)推進(jìn)核污染水排海2025-12-04 13:17:22

專家提醒美國(guó)日本能重演珍珠港事件 歷史不會(huì)重演

專家提醒美國(guó)日本能重演珍珠港事件2025-12-04 11:51:26

東南亞的這輪暴雨為何這么“兇”?三百年一遇的暴擊

東南亞的這輪暴雨為何這么兇"2025-12-04 13:35:58

日本擬打造宇宙作戰(zhàn)集團(tuán) 推進(jìn)太空軍事化

日本擬打造宇宙作戰(zhàn)集團(tuán)2025-12-04 13:14:34

女子收養(yǎng)流浪狗后被領(lǐng)著去見狗寶寶:善意被懂得,信任有了回應(yīng)

女子收養(yǎng)流浪狗后被領(lǐng)著去見狗寶寶2025-12-04 13:21:23

相關(guān)新聞