电竞下注-中国电竞赛事及体育赛事平台

中華網(wǎng) china.com

新聞

DeepSeek新模型讓硅谷“失眠” 開源陣營的“反擊夜”

關(guān)鍵詞:
2025-12-04 13:38:15  澎湃

2025年年底,本以為全球大模型的話題中心已經(jīng)被Google牢牢搶走。Gemini 3 Pro上線后,在一系列權(quán)威評測中壓制所有開源模型,閉源陣營重新站上技術(shù)制高點,“開源是不是到頭了”“Scaling Law是不是撞墻了”的聲音在業(yè)內(nèi)此起彼伏,開源社區(qū)一度彌漫出一種隱隱的低氣壓。

就在這種節(jié)點上,DeepSeek沒有選擇退到邊線觀望,而是把牌一口氣攤在桌面上。12月1日,它直接拋出兩款新模型:在推理能力上對標GPT-5、整體表現(xiàn)逼近Gemini 3 Pro的DeepSeek-V3.2,以及在數(shù)學(xué)、邏輯和復(fù)雜多輪工具調(diào)用上表現(xiàn)異常突出的Speciale版本。這既是一次集中秀肌肉,也是對“閉源新天花板”的正面回應(yīng)——而且是在算力資源并不占優(yōu)的前提下。

換句話說,這已經(jīng)不是一次常規(guī)意義上的“版本升級”,而更像是DeepSeek對“后Scaling時代”路線的一次公開下注:當繼續(xù)簡單堆規(guī)模不再是唯一答案,如何憑架構(gòu)和訓(xùn)練方式把差距補回來?如何用更少的token,跑出更像“智能體”、而不是“聊天補全器”的行為?以及——為何要在開源陣營中第一個把Agent抬到戰(zhàn)略高度?

圍繞這些問題,DeepSeek給出了一套相對完整的技術(shù)路徑和系統(tǒng)敘事。

在大模型的第一陣營里,開源一直被認為“最多追平,難以對抗”。這一次,DeepSeek-V3.2交出來的成績單,已經(jīng)不太像傳統(tǒng)意義上的追趕者。

按照DeepSeek對外披露的數(shù)據(jù),V3.2在公開推理類評測中的整體表現(xiàn),已經(jīng)可以與GPT-5同場對比,僅在少數(shù)項目上略遜于Gemini 3 Pro。在多項關(guān)鍵指標上,它穩(wěn)定超越Kimi-K2-Thinking,刷新國內(nèi)開源模型推理能力的最好紀錄。在數(shù)學(xué)計算、復(fù)雜邏輯、多步推演等任務(wù)上,V3.2已經(jīng)具備和領(lǐng)先閉源模型掰手腕的實力,基本站到了“全球第二梯隊”的前排位置。

這背后起決定性作用的,并不是簡單地“模型再放大一點”,而是對底層架構(gòu)的重新動刀。最典型的,就是DeepSeek在V3.2中引入的稀疏注意力機制(DSA)。

傳統(tǒng)Transformer里,注意力需要讓每個token和前面幾乎所有token“打招呼”,計算量隨著上下文長度呈平方級攀升,長上下文一上來,推理成本立刻飆升。DSA做的事,說白了就是:“別再對所有人一視同仁,把算力先省出來,只算真正有用的那一部分?!?/p>

為此,DeepSeek在注意力模塊前加了一層“閃電索引器”(Lightning Indexer)。這個模塊本身可以用極少的參數(shù)、在FP8這樣的低精度下運行,負責(zé)在極短時間內(nèi)做一輪粗篩,先找出與當前token最關(guān)鍵的一小撮上下文位置,再把主算力集中投向這部分核心token。這樣一套組合拳打下來,注意力的復(fù)雜度從近乎N2,被壓縮到了接近線性。

更關(guān)鍵的是,DeepSeek并沒有一上來就用稀疏結(jié)構(gòu)“硬替換”。在預(yù)訓(xùn)練前期,模型仍然采用標準的密集注意力,而索引器則負責(zé)在旁邊“學(xué)分布”,逐步擬合原有注意力的權(quán)重模式;等到后期模型穩(wěn)定后,再用稀疏結(jié)構(gòu)從密集注意力手中接管大部分工作。這種“先模仿、再接管”的漸進式過渡,使得V3.2在128K甚至更長上下文下,既大幅減輕了計算壓力,又沒有明顯犧牲精度。在Fiction.liveBench、AA-LCR等長文本基準測試中,V3.2在信息召回、上下文一致性以及壓縮表達上的表現(xiàn),均明顯好于上一代。

如果說DSA是在“算得更經(jīng)濟”,那么另一個不太容易被外行察覺的關(guān)鍵點,則是在“怎么把每一步思考用得更值”。

在V3.2里,DeepSeek首次系統(tǒng)性提出了“Thinking in Tool-Use”的工具使用范式。以前大多數(shù)模型調(diào)用工具的流程,是“想一想→調(diào)工具→給答案”,調(diào)用工具像是插在思維鏈條中間的一塊“硬隔板”。V3.2改造后的執(zhí)行邏輯,則更像是“邊想邊調(diào)”:模型可以先推一段邏輯,再調(diào)一次工具,拿到結(jié)果后繼續(xù)在原來的推理軌跡上接著想,再視情況調(diào)下一次工具……整個過程交錯前進。

這套模式與Agent領(lǐng)域近一年熱炒的“Interleaved Thinking”不謀而合。對于現(xiàn)實世界的復(fù)雜任務(wù)而言,這種能力要比單次大爆發(fā)式推理重要得多。真實場景里,任務(wù)往往要先搜集一輪信息、再驗證、再拆解子任務(wù)、再修正路徑,如果每調(diào)一次工具,模型的“思路”就被截斷一次,那它就只能不停重來——既浪費token,也容易在反復(fù)重啟中丟失關(guān)鍵線索。

V3.2在底層做的改動,是把“推理軌跡”當成上下文中的固定資產(chǎn),工具調(diào)用不會刷新這條軌跡,只會在其后追加新思考。工具返回新信息之后,模型繼續(xù)沿著原先的思路往下推,而非重開一局。這既讓同一任務(wù)中的中間狀態(tài)可以反復(fù)復(fù)用,也顯著減少了毫無必要的重復(fù)生成。

綜合來看,這一代DeepSeek的進步,更像是一次“算力配置邏輯”的重寫:在算力總盤子并不占優(yōu)的情況下,通過更聰明的架構(gòu)設(shè)計和推理方式,把每一點浮點數(shù)都用到刀刃上。DSA負責(zé)把“該算的算得更專注”,交錯思維負責(zé)讓“每一步思考帶來的信息收益更大”,兩者疊在一起,指向的都是同一個目標——從一個“大號補全器”,走向一個更接近“持續(xù)思考的智能體”。

從這個意義上講,在參數(shù)規(guī)模紅利逐漸見頂之后,接下來的競爭,注定會從“誰更大”轉(zhuǎn)向“誰更會用算力”和“誰能組織起更長、更穩(wěn)定的思維鏈條”。V3.2算是這個方向的一個相對成熟的樣本。

如果說架構(gòu)上的變化讓V3.2站穩(wěn)了技術(shù)底座,那么在戰(zhàn)略路線上的明顯拐彎,則體現(xiàn)在一個關(guān)鍵詞上——Agent。

過去一年,業(yè)界對Agent的話題并不少,但大部分廠商仍把它當作模型能力之上的“外掛能力”:有就加一層,沒有也不至于影響大盤。DeepSeek這次則把話說得很直接——在它的技術(shù)文檔和對外闡釋中,“Agent能力”和“推理能力”被放在了同一高度。

這一判斷并非空穴來風(fēng)。過去一段時間,不少企業(yè)率先感受到的是:單純“更會聊天”的模型,其業(yè)務(wù)邊際效益在不斷遞減。反而是會“下手干活”的Agent,比如自動生成月報、批量處理客服工單、自動跑流程、替程序員修小bug,才是真正能閉環(huán)并被愿意付費的東西。

DeepSeek正是圍繞這一趨勢重構(gòu)了訓(xùn)練路徑——在V3.2的后訓(xùn)練階段,它搭了一整套針對Agent的訓(xùn)練體系,而不是簡單在模型外再縫一個“Agent框架”。據(jù)披露,團隊自建了超過1800個模擬環(huán)境,并圍繞這些環(huán)境自動生成了大約8.5萬條復(fù)雜任務(wù)提示和任務(wù)軌跡。這些軌跡不是靠人工一條條寫出來,而是借助環(huán)境構(gòu)建器和軌跡打分系統(tǒng)自動合成,再通過強化學(xué)習(xí)不斷迭代。

這種做法,實際上是在繞開“繼續(xù)砸海量對話數(shù)據(jù)”的老路。與傳統(tǒng)的聊天語料相比,Agent任務(wù)具備更強的結(jié)構(gòu)化、可驗證性以及高度稀缺性——一旦建立起足夠豐富的任務(wù)環(huán)境,同一環(huán)境在后續(xù)訓(xùn)練中可以被反復(fù)利用,帶來的“能力增量”要遠高于再加一批閑聊對話。

為了讓模型真正學(xué)會在這些環(huán)境里“行動”,DeepSeek繼續(xù)沿用了GRPO(Group Relative Policy Optimization)這一強化學(xué)習(xí)策略,并按自家場景做了大量本地化改造。模型訓(xùn)練優(yōu)化的目標,不再只是“回答對不對”,而是同時要兼顧:任務(wù)有沒有完成、推理過程是否連貫、語言表達是否穩(wěn)定、工具使用是否合理自然。為此,DeepSeek沒有采用單一維度的獎勵,而是把任務(wù)完成度、推理合理性、語言質(zhì)量等拆成多維信號,讓模型在訓(xùn)練中盡量避免“顧此失彼”。

做這一切,還有一個前提:模型要有足夠強的“狀態(tài)感知能力”,能在多輪任務(wù)中記住自己已經(jīng)做過什么、當前在第幾步。這就回到了前面提到的上下文管理——V3.2在系統(tǒng)級別規(guī)定:只有當用戶發(fā)出新指令時,模型才會重置思考狀態(tài);在同一個任務(wù)內(nèi)部,不論調(diào)用多少次工具,推理軌跡都被完整保留下來。這種設(shè)計直接保證了Agent行為鏈條的連續(xù)性,使得模型有能力承接更長、更復(fù)雜的跨階段任務(wù)。

站在系統(tǒng)架構(gòu)的視角看,DeepSeek對Agent的理解已經(jīng)明顯超出“給模型加個自動化殼子”的層面,更接近于把Agent當作“模型操作系統(tǒng)”的一部分。模型本體是內(nèi)核,Agent是圍繞內(nèi)核調(diào)度資源的執(zhí)行層,外部工具則像是一個個模塊化驅(qū)動。誰能先把這套“模型OS+Agent標準”跑通并跑穩(wěn),誰就可能搶先拿到下一階段生態(tài)的主導(dǎo)權(quán)。

也因此,DeepSeek這次不只是實現(xiàn)了“交錯式思考+工具使用”的技術(shù)路徑,還刻意給這套范式起了一個明確的名字——“Thinking in Tool-Use”。這既是技術(shù)標簽,也是對未來平臺規(guī)則的一種預(yù)埋。

對于整個行業(yè)來說,這標志著一個不太容易回頭的分界線:Agent不再是“可選項”,而開始變成大模型中長期競爭力的必要組成。未來看一款模型,不再只是看它在標準榜單上的分數(shù),更要看它在真實環(huán)境里的執(zhí)行鏈條和Agent表現(xiàn)。

當然,哪怕有V3.2和Speciale這一波高光表現(xiàn),DeepSeek并沒有掩飾開源與閉源之間仍然存在的現(xiàn)實差距。

一方面,在世界知識的廣度和最新信息的覆蓋上,開源模型受限于數(shù)據(jù)獲取渠道和更新頻率,短期內(nèi)很難與手握巨大私有數(shù)據(jù)池的閉源巨頭完全持平。另一方面,在極端復(fù)雜任務(wù)(例如跨領(lǐng)域、多階段專業(yè)決策)以及token生成效率上,開源體系仍然處于被動追趕的位置。

DeepSeek選擇承認這些不利因素,然后把精力押在“后訓(xùn)練戰(zhàn)術(shù)”上:既然參數(shù)規(guī)模和預(yù)訓(xùn)練預(yù)算追不上,就盡可能把后訓(xùn)練過程做深、做精。

為此,它設(shè)計了被內(nèi)部稱為“后訓(xùn)練三板斧”的組合:專家蒸餾、多軌強化學(xué)習(xí),以及工具思維融合。

所謂專家蒸餾,是在通用大模型之外,再訓(xùn)練一批高度“偏科”的小模型。DeepSeek為V3.2準備了六類專家,分別專攻數(shù)學(xué)、編程、邏輯推理、通用Agent、Agent編程和Agent搜索等方向。它們不直接面向用戶,而是用來自行生成高質(zhì)量示范樣本,再把這些樣本喂回主模型,相當于用多個“小學(xué)霸”的解題過程去“喂養(yǎng)”一個通才,讓通才在后訓(xùn)練階段集中吸收各領(lǐng)域的成熟解題套路。

多軌強化學(xué)習(xí)則是第二步。DeepSeek在V3.2上延續(xù)了GRPO框架,但調(diào)整了獎勵設(shè)計與訓(xùn)練項目結(jié)構(gòu),讓模型不止優(yōu)化“最終答對沒”,還要優(yōu)化“怎么一步一步做對”。大約超過整體預(yù)訓(xùn)練算力預(yù)算10%以上的額外資源,被投入到了這一階段,在開源模型里,這樣的后訓(xùn)練比例并不多見。

第三部分,則是把工具使用習(xí)慣直接融入模型的“思考方式”。剛開始訓(xùn)練時,模型并不知道“什么時候該調(diào)工具,什么時候自己算”,更不懂“調(diào)用后如何接著自己的思路往下推”。為此,DeepSeek在系統(tǒng)提示中大量加入了人造示例,告訴模型在什么場景下應(yīng)該自然地把工具調(diào)用嵌進推理鏈,而不是像過去那樣“先想完,再補一個工具調(diào)用”。隨著訓(xùn)練反復(fù)迭代,模型逐漸從“模仿”走向“內(nèi)化”。

為了減輕token負擔(dān),DeepSeek再次動了上下文結(jié)構(gòu)的手術(shù)刀——工具調(diào)用不再清空思考內(nèi)容,只有用戶發(fā)出新問題時才重置場景。這既壓縮了重復(fù)內(nèi)容帶來的token膨脹,也讓模型在一次任務(wù)中可以持續(xù)利用前面已經(jīng)展開的推理鏈。

歸根到底,這一系列做法都圍繞著同一個核心思路:在規(guī)模受限的情況下,想辦法提高“單位token的含金量”,讓每一次推理、每一段輸出,都盡量承載更多有用的信息,而不是把算力浪費在重復(fù)和無效生成上。

當然,靠一兩代產(chǎn)品,開源不可能立刻翻過閉源巨頭筑起的那道高墻。一邊是Gemini 3 Pro代表的“極致規(guī)模+資源堆疊路線”,另一邊是以DeepSeek為代表的“架構(gòu)創(chuàng)新+后訓(xùn)練強化路線”,兩條路徑接下來很可能會在不同場景下長期并存。前者在通用性和知識深度上仍然占優(yōu),后者則試圖用更高的能效比和更強的推理組織能力,去爭取一條“以小搏大”的穿透通道。

從這個角度看,DeepSeek這次帶來的,并不只是兩份新模型報告,而是對“開源是否還有機會追上閉源”的一次階段性回答:規(guī)模差距短期難以消除,但只要在架構(gòu)、Agent和后訓(xùn)練方法上持續(xù)加碼,開源并非沒有機會在某些關(guān)鍵能力帶上實現(xiàn)對閉源的局部反超。

至少,在2025年的這個冬天,硅谷那些原本以為“大局已定”的技術(shù)團隊,多少又得重新算一遍賬了。

(責(zé)任編輯:0764)
關(guān)閉

日本網(wǎng)站回應(yīng)招聘抹黑中國人劇本寫手 違規(guī)信息已被下架

日本網(wǎng)站回應(yīng)招聘抹黑中國人劇本寫手2025-12-04 13:37:47

東南亞的這輪暴雨為何這么“兇”?三百年一遇的暴擊

東南亞的這輪暴雨為何這么兇"2025-12-04 13:35:58

特朗普心腹將會見烏方代表 通報莫斯科會談情況

特朗普心腹將會見烏方代表2025-12-04 13:35:28

北京明后兩天晴朗氣溫回升 早晚寒冷注意保暖 午間適宜戶外活動

北京明后兩天晴朗氣溫回升早晚寒冷注意保暖2025-12-04 13:33:22

大國五年|澎湃內(nèi)需,鑄就發(fā)展主錨 消費引擎強勁驅(qū)動

大國五年|澎湃內(nèi)需,鑄就發(fā)展主錨2025-12-04 13:26:01

日本著急替馬克龍做決定!

日本著急替馬克龍做決定2025-12-04 13:20:00

小伙埋頭吃羊排頭發(fā)著火還不忘點贊!

小伙埋頭吃羊排頭發(fā)著火還不忘點贊2025-12-04 13:18:38

高市早苗的玩梗式營銷翻車 外交場合失分寸

高市早苗的玩梗式營銷翻車2025-12-04 11:51:05

馬克龍訪華,為何去成都?:探尋合作新窗口

馬克龍訪華,為何去成都2025-12-04 13:23:21

日本網(wǎng)站回應(yīng)招聘抹黑中國人劇本寫手 違規(guī)信息已被下架

日本網(wǎng)站回應(yīng)招聘抹黑中國人劇本寫手2025-12-04 13:37:47

日本宮古島居民擔(dān)心島嶼變戰(zhàn)場 安全與生存的錯位

日本宮古島居民擔(dān)心島嶼變戰(zhàn)場2025-12-04 13:30:41

失去親信的澤連斯基還能堅持多久 生死抉擇

失去親信的澤連斯基還能堅持多久2025-12-04 13:05:10

中國準航母艦隊或繞澳航行 澳海軍無法應(yīng)對 實力懸殊引發(fā)擔(dān)憂

中國準航母艦隊或繞澳航行澳海軍無法應(yīng)對2025-12-04 13:31:09

美媒:美國議員首次公開一批愛潑斯坦私人島嶼的照片與視頻

愛潑斯坦私人島嶼的照片被公開2025-12-04 11:53:26

烏狙擊手平原上穿著偽裝衣一動不動 被俄無人機瞬間發(fā)現(xiàn)遭襲身亡

烏狙擊手平原上穿著偽裝衣一動不動 被俄無人機瞬間發(fā)現(xiàn)遭襲身亡2025-12-04 11:50:17

辦公電腦里的聊天記錄被公司擅自恢復(fù),該由誰做主?

辦公電腦里的聊天記錄被公司擅自恢復(fù)2025-12-04 13:23:37

王曼昱采訪結(jié)束試圖鉆圍欄離場 王曼昱是不是忘了自己的身高

王曼昱采訪結(jié)束試圖鉆圍欄離場2025-12-04 13:20:53

特朗普心腹將會見烏方代表 通報莫斯科會談情況

特朗普心腹將會見烏方代表2025-12-04 13:35:28

鈞正平:誰在為日本軍國主義“招魂” 復(fù)活的幽靈再現(xiàn)

鈞正平,誰在為日本軍國主義招魂2025-12-04 13:10:19

女子跟風(fēng)做趾壓板超慢跑腳底噴血 健身變傷身

女子跟風(fēng)做趾壓板超慢跑腳底噴血2025-12-04 13:31:26

美國若對委內(nèi)瑞拉動武面臨哪些問題 師出無名且代價高昂

美國若對委內(nèi)瑞拉動武面臨哪些問題2025-12-04 11:54:55

美飛行表演隊F-16墜毀背后有何原因 維護與管理挑戰(zhàn)

美飛行表演隊F-16墜毀背后有何原因2025-12-04 11:51:46

埃爾多安譴責(zé)烏克蘭 局勢升級威脅黑海安全

埃爾多安譴責(zé)烏克蘭2025-12-04 13:28:50

我國科學(xué)家取得量子研究新進展 實現(xiàn)愛因斯坦思想實驗

我國科學(xué)家取得量子研究新進展2025-12-04 13:26:20

丈夫被精神病人殺害妻子憶事發(fā)過程!

丈夫被精神病人殺害妻子憶事發(fā)過程2025-12-04 13:30:39

很快開展陸上打擊?美威脅加劇,知情人士:馬杜羅每夜更換睡覺地點 局勢緊張升級

很快開展陸上打擊,美威脅加劇,知情人士,馬杜羅每夜更換睡覺地點2025-12-04 11:53:43

日本學(xué)者:高市破壞《中日聯(lián)合聲明》干涉中國內(nèi)政

日本學(xué)者,高市破壞中日聯(lián)合聲明2025-12-04 11:53:03

日本持續(xù)推進核污染水排海!

日本持續(xù)推進核污染水排海2025-12-04 13:17:22

黃仁勛:華為是強大的科技公司之一 中國AI技術(shù)崛起引發(fā)關(guān)注

黃仁勛,華為是強大的科技公司之一2025-12-04 13:25:41

專家提醒美國日本能重演珍珠港事件 歷史不會重演

專家提醒美國日本能重演珍珠港事件2025-12-04 11:51:26

東南亞的這輪暴雨為何這么“兇”?三百年一遇的暴擊

東南亞的這輪暴雨為何這么兇"2025-12-04 13:35:58

日本擬打造宇宙作戰(zhàn)集團 推進太空軍事化

日本擬打造宇宙作戰(zhàn)集團2025-12-04 13:14:34

女子收養(yǎng)流浪狗后被領(lǐng)著去見狗寶寶:善意被懂得,信任有了回應(yīng)

女子收養(yǎng)流浪狗后被領(lǐng)著去見狗寶寶2025-12-04 13:21:23

相關(guān)新聞