8月21日,深度求索正式發(fā)布了DeepSeek-V3.1大語(yǔ)言模型。這款新模型最大的技術(shù)亮點(diǎn)是“混合推理架構(gòu)”,能夠在單一架構(gòu)內(nèi)同時(shí)支持思考模式與非思考模式。用戶可以通過(guò)“深度思考”按鈕實(shí)現(xiàn)無(wú)縫切換,在復(fù)雜任務(wù)中啟用鏈?zhǔn)酵评恚诤?jiǎn)單任務(wù)中快速響應(yīng)。
根據(jù)官方數(shù)據(jù),DeepSeek-V3.1-Think在多項(xiàng)專業(yè)評(píng)測(cè)中表現(xiàn)突出,如AIME 2025、GPQA和LiveCodeBench等基準(zhǔn)測(cè)試中與前代模型R1-0528性能持平,但輸出token數(shù)減少20%~50%,顯著降低了推理成本。在非思考模式下,模型也能以更短的輸出長(zhǎng)度保持同等性能。
此次升級(jí)被視為DeepSeek在AGI競(jìng)爭(zhēng)中的關(guān)鍵一步,標(biāo)志著國(guó)產(chǎn)大模型間的競(jìng)爭(zhēng)進(jìn)入“智能體驅(qū)動(dòng)”階段。DeepSeek同步開(kāi)源了V3.1的Base模型和后訓(xùn)練模型,參數(shù)規(guī)模達(dá)840B tokens,并在Hugging Face和魔搭社區(qū)開(kāi)放下載。API方面,deepseek-chat(非思考模式)和deepseek-reasoner(思考模式)的上下文統(tǒng)一擴(kuò)展至128K。
值得注意的是,DeepSeek宣布自9月6日起調(diào)整API定價(jià)并取消夜間優(yōu)惠。輸入價(jià)格上,緩存命中時(shí)為0.5元/百萬(wàn)tokens,緩存未命中的價(jià)格則為4元/百萬(wàn)tokens;輸出價(jià)格為12元/百萬(wàn)tokens。這一舉措被業(yè)內(nèi)解讀為,深度求索將從年初的關(guān)注價(jià)格轉(zhuǎn)向價(jià)值競(jìng)爭(zhēng)的信號(hào)。此外,V3.1使用的UE8M0FP8精度是針對(duì)下一代國(guó)產(chǎn)芯片設(shè)計(jì)的,這可能意味著DeepSeek在硬件適配方面投入了更多資源。
DeepSeek-V3.1的發(fā)布反映了國(guó)產(chǎn)大模型競(jìng)爭(zhēng)焦點(diǎn)正從“長(zhǎng)上下文”轉(zhuǎn)向“智能體能力”。今年7月,月之暗面發(fā)布的Kimi K2是一個(gè)擁有萬(wàn)億參數(shù)規(guī)模的混合專家模型,在SWE Bench Verified、Tau2和AceBench等基準(zhǔn)性能測(cè)試中均取得開(kāi)源模型中的最高水平成績(jī)。Kimi K2可以幫助用戶直接制定旅行計(jì)劃并預(yù)訂機(jī)票和酒店。
智譜AI在7月28日發(fā)布的GLM-4.5系列也定位為“Agent原生基礎(chǔ)模型”,并在8月20日發(fā)布了全球首個(gè)手機(jī)Agent AutoGLM2.0,具備推理、代碼與多模態(tài)的全能能力,同樣可以一鍵訂票訂咖啡。DeepSeek-V3.1也在編程智能體測(cè)評(píng)和搜索智能體測(cè)評(píng)中表現(xiàn)出色。
隨著智能體應(yīng)用場(chǎng)景的深化,國(guó)產(chǎn)大模型或?qū)摹盎A(chǔ)能力追趕”進(jìn)入“垂直領(lǐng)域深耕”階段,廠商將在推理效率、工具調(diào)用生態(tài)和成本控制之間找到平衡點(diǎn)。