所謂專家蒸餾,是在通用大模型之外,再訓(xùn)練一批高度“偏科”的小模型。DeepSeek為V3.2準(zhǔn)備了六類專家,分別專攻數(shù)學(xué)、編程、邏輯推理、通用Agent、Agent編程和Agent搜索等方向。它們不直接面向用戶,而是用來自行生成高質(zhì)量示范樣本,再把這些樣本喂回主模型,相當(dāng)于用多個“小學(xué)霸”的解題過程去“喂養(yǎng)”一個通才,讓通才在后訓(xùn)練階段集中吸收各領(lǐng)域的成熟解題套路。
多軌強(qiáng)化學(xué)習(xí)則是第二步。DeepSeek在V3.2上延續(xù)了GRPO框架,但調(diào)整了獎勵設(shè)計與訓(xùn)練項目結(jié)構(gòu),讓模型不止優(yōu)化“最終答對沒”,還要優(yōu)化“怎么一步一步做對”。大約超過整體預(yù)訓(xùn)練算力預(yù)算10%以上的額外資源,被投入到了這一階段,在開源模型里,這樣的后訓(xùn)練比例并不多見。
第三部分,則是把工具使用習(xí)慣直接融入模型的“思考方式”。剛開始訓(xùn)練時,模型并不知道“什么時候該調(diào)工具,什么時候自己算”,更不懂“調(diào)用后如何接著自己的思路往下推”。為此,DeepSeek在系統(tǒng)提示中大量加入了人造示例,告訴模型在什么場景下應(yīng)該自然地把工具調(diào)用嵌進(jìn)推理鏈,而不是像過去那樣“先想完,再補(bǔ)一個工具調(diào)用”。隨著訓(xùn)練反復(fù)迭代,模型逐漸從“模仿”走向“內(nèi)化”。
為了減輕token負(fù)擔(dān),DeepSeek再次動了上下文結(jié)構(gòu)的手術(shù)刀——工具調(diào)用不再清空思考內(nèi)容,只有用戶發(fā)出新問題時才重置場景。這既壓縮了重復(fù)內(nèi)容帶來的token膨脹,也讓模型在一次任務(wù)中可以持續(xù)利用前面已經(jīng)展開的推理鏈。
歸根到底,這一系列做法都圍繞著同一個核心思路:在規(guī)模受限的情況下,想辦法提高“單位token的含金量”,讓每一次推理、每一段輸出,都盡量承載更多有用的信息,而不是把算力浪費在重復(fù)和無效生成上。
11月27日晚,DeepSeek在Hugging Face上開源了一個新模型:DeepSeek-Math-V2。這是一個數(shù)學(xué)模型,也是目前首個達(dá)到IMO金牌水平且開源的模型
2025-11-28 10:26:50DeepSeek推出新模型10月20日,人工智能團(tuán)隊DeepSeek AI發(fā)布了全新多模態(tài)模型 DeepSeek-OCR
2025-10-20 20:33:14DeepSeek開源新模型DeepSeek-OCR