DeepSeek-V3.1正式發(fā)布新版本效率大幅提升

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-08-21 22:51:14 新浪財(cái)經(jīng)

DeepSeek用戶期待的R2模型尚未到來，但V3.1版本已經(jīng)發(fā)布。8月21日，DeepSeek官方公眾號宣布最新大語言模型DeepSeek-V3.1正式上線，距離上一個(gè)版本DeepSeek-V3-0324已有五個(gè)月。

新版本在三個(gè)方面進(jìn)行了升級：混合推理架構(gòu)、更高的思考效率以及更強(qiáng)的Agent能力。從命名來看，DeepSeek-V3.1似乎是前一代DeepSeek-V3的小版本迭代。該模型支持兩種工作模式——思考模式和非思考模式。面對簡單問題時(shí)，它以非思考模式快速作答；處理復(fù)雜問題時(shí)，則切換到思考模式，提供更具深度和邏輯的答案。用戶可以通過官方App或網(wǎng)頁端的“深度思考”按鈕來切換這兩種模式。

與之前的DeepSeek-R1-0528相比，DeepSeek-V3.1在思考模式下的效率大幅提升，能在更短時(shí)間內(nèi)給出答案，并且經(jīng)過思維鏈壓縮訓(xùn)練后，token消耗量減少了20%至50%，同時(shí)保持了與R1-0528相當(dāng)?shù)娜蝿?wù)表現(xiàn)。此外，在非思考模式下，新模型的輸出長度也得到了有效控制，能夠在輸出長度明顯減少的情況下保持相同的性能。

通過Post-Training優(yōu)化，新模型在工具使用與編程、搜索等智能體任務(wù)中的表現(xiàn)大幅提升。在代碼修復(fù)和命令行終端任務(wù)測試中，DeepSeek-V3.1的表現(xiàn)顯著優(yōu)于以往模型。社區(qū)第三方測試數(shù)據(jù)顯示，在Aider多語言編程基準(zhǔn)測試中，V3.1取得了71.6%的高分，超越了多個(gè)知名模型，完成一次編程任務(wù)的成本僅為1.01美元，成本效益優(yōu)勢顯著。

隨著V3.1的發(fā)布，DeepSeek調(diào)整了API接口調(diào)用價(jià)格，并取消了夜間優(yōu)惠。自北京時(shí)間2025年9月6日凌晨起，輸入價(jià)格方面，緩存命中時(shí)為0.5元/百萬tokens，緩存未命中時(shí)則漲至4元/百萬tokens；輸出價(jià)格調(diào)整為12元/百萬tokens。DeepSeek還在評論區(qū)提到，DeepSeek-V3.1使用了UE8M0 FP8 Scale的參數(shù)精度，并對分詞器及chat template進(jìn)行了較大調(diào)整，與DeepSeek-V3存在明顯差異。UE8M0 FP8是針對即將發(fā)布的下一代國產(chǎn)芯片設(shè)計(jì)的。

12 全文共 2 頁下一頁

關(guān)閉

DeepSeek-V3.1正式發(fā)布 新版本效率大幅提升

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

DeepSeek-V3.1正式發(fā)布新版本效率大幅提升