DeepSeek為何發(fā)表研究成果揭示AI模型秘密

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-09-20 12:51:47 證券時報網(wǎng)

證券時報的文章內(nèi)容僅供參考，不構(gòu)成實質(zhì)性投資建議，據(jù)此操作風險自擔。下載“證券時報”官方APP或關(guān)注官方微信公眾號，可以隨時了解股市動態(tài)，洞察政策信息，把握財富機會。

9月18日，DeepSeek團隊的研究論文《DeepSeek-R1推理模型》登上了國際權(quán)威期刊《自然》的封面。梁文鋒擔任該論文的通訊作者。DeepSeek R1是首個通過同行評議的主要大語言模型，新版論文與今年1月未經(jīng)同行評審的初版有較大差異。

在同行評議過程中，DeepSeek團隊減少了對模型的擬人化描述，并增加了技術(shù)細節(jié)說明，包括訓練數(shù)據(jù)類型和安全性考慮等，回應了關(guān)于知識蒸餾的質(zhì)疑。DeepSeek否認了使用OpenAI模型輸出進行訓練的說法，明確表示DeepSeek-V3 Base（DeepSeek-R1的基座模型）使用的數(shù)據(jù)全部來自互聯(lián)網(wǎng)，雖然可能包含GPT-4生成的結(jié)果，但絕非有意而為之，更沒有專門的蒸餾環(huán)節(jié)。為防止基準測試數(shù)據(jù)污染，團隊對DeepSeek-R1的預訓練和后訓練數(shù)據(jù)都實施了全面的去污染措施。

開源之后，R1在Hugging Face上的下載量突破1090萬次，成為全球最受歡迎的開源推理模型之一。DeepSeek首次公開了僅靠強化學習就能激發(fā)大模型推理能力的重要研究成果，啟發(fā)了全球AI研究者。R1的核心創(chuàng)新在于采用了“純強化學習”這一自動化試錯方法，通過獎勵模型達到正確答案的行為來學習推理策略，而非傳統(tǒng)模仿人類預設(shè)的推理模式。補充材料中還首次公布了R1訓練成本僅為29.4萬美元，加上約600萬美元的基礎(chǔ)模型成本，遠低于其他主流AI公司的訓練成本。

今年1月，DeepSeek R1模型發(fā)布時，其卓越的推理能力和極低的開發(fā)成本曾引發(fā)全球科技股大幅下跌。作為全球首個通過同行評審的主流大語言模型，《自然》期刊將該篇論文作為封面論文，并在評論報道文章中表達了贊賞和肯定，認為這標志著中國在大模型基礎(chǔ)研究領(lǐng)域取得重要突破。在AI行業(yè)快速發(fā)展中，未經(jīng)證實的說法和炒作不在少數(shù)?！蹲匀弧冯s志認為，依靠獨立研究人員進行的同行評審是抑制AI行業(yè)過度炒作的有效方式。DeepSeek所做的一切，是非常值得歡迎的先例。

8月21日，DeepSeek正式發(fā)布了最新大語言模型DeepSeek-V3.1。新升級版本的變化主要體現(xiàn)在三個方面：混合推理架構(gòu)、更高的思考效率以及更強的Agent能力。DeepSeek-V3.1實現(xiàn)了一個模型同時支持思考模式與非思考模式。DeepSeek是2023年成立于杭州的人工智能公司，由幻方量化孵化，創(chuàng)始團隊由梁文鋒領(lǐng)銜，成員來自頂尖高校與國際機構(gòu)的技術(shù)專家。

(責任編輯：zhangxiaohua)

關(guān)閉

DeepSeek為何發(fā)表研究成果 揭示AI模型秘密

相關(guān)新聞

今日熱點

頻道熱點

DeepSeek為何發(fā)表研究成果揭示AI模型秘密