證券時報的文章內(nèi)容僅供參考,不構(gòu)成實質(zhì)性投資建議,據(jù)此操作風險自擔。下載“證券時報”官方APP或關(guān)注官方微信公眾號,可以隨時了解股市動態(tài),洞察政策信息,把握財富機會。
9月18日,DeepSeek團隊的研究論文《DeepSeek-R1推理模型》登上了國際權(quán)威期刊《自然》的封面。梁文鋒擔任該論文的通訊作者。DeepSeek R1是首個通過同行評議的主要大語言模型,新版論文與今年1月未經(jīng)同行評審的初版有較大差異。
在同行評議過程中,DeepSeek團隊減少了對模型的擬人化描述,并增加了技術(shù)細節(jié)說明,包括訓練數(shù)據(jù)類型和安全性考慮等,回應了關(guān)于知識蒸餾的質(zhì)疑。DeepSeek否認了使用OpenAI模型輸出進行訓練的說法,明確表示DeepSeek-V3 Base(DeepSeek-R1的基座模型)使用的數(shù)據(jù)全部來自互聯(lián)網(wǎng),雖然可能包含GPT-4生成的結(jié)果,但絕非有意而為之,更沒有專門的蒸餾環(huán)節(jié)。為防止基準測試數(shù)據(jù)污染,團隊對DeepSeek-R1的預訓練和后訓練數(shù)據(jù)都實施了全面的去污染措施。
開源之后,R1在Hugging Face上的下載量突破1090萬次,成為全球最受歡迎的開源推理模型之一。DeepSeek首次公開了僅靠強化學習就能激發(fā)大模型推理能力的重要研究成果,啟發(fā)了全球AI研究者。R1的核心創(chuàng)新在于采用了“純強化學習”這一自動化試錯方法,通過獎勵模型達到正確答案的行為來學習推理策略,而非傳統(tǒng)模仿人類預設(shè)的推理模式。補充材料中還首次公布了R1訓練成本僅為29.4萬美元,加上約600萬美元的基礎(chǔ)模型成本,遠低于其他主流AI公司的訓練成本。
今年1月,DeepSeek R1模型發(fā)布時,其卓越的推理能力和極低的開發(fā)成本曾引發(fā)全球科技股大幅下跌。作為全球首個通過同行評審的主流大語言模型,《自然》期刊將該篇論文作為封面論文,并在評論報道文章中表達了贊賞和肯定,認為這標志著中國在大模型基礎(chǔ)研究領(lǐng)域取得重要突破。在AI行業(yè)快速發(fā)展中,未經(jīng)證實的說法和炒作不在少數(shù)?!蹲匀弧冯s志認為,依靠獨立研究人員進行的同行評審是抑制AI行業(yè)過度炒作的有效方式。DeepSeek所做的一切,是非常值得歡迎的先例。
8月21日,DeepSeek正式發(fā)布了最新大語言模型DeepSeek-V3.1。新升級版本的變化主要體現(xiàn)在三個方面:混合推理架構(gòu)、更高的思考效率以及更強的Agent能力。DeepSeek-V3.1實現(xiàn)了一個模型同時支持思考模式與非思考模式。DeepSeek是2023年成立于杭州的人工智能公司,由幻方量化孵化,創(chuàng)始團隊由梁文鋒領(lǐng)銜,成員來自頂尖高校與國際機構(gòu)的技術(shù)專家。
韋東奕,北京大學數(shù)學科學學院助理教授、研究員,近日開通個人社交賬號,吸引了大量網(wǎng)民關(guān)注
2025-06-11 19:38:33韋東奕輿論喧囂之外專注學術(shù)韋東奕,北京大學數(shù)學科學學院助理教授、研究員,最近開通了個人社交賬號,吸引了眾多網(wǎng)民的關(guān)注
2025-06-11 00:33:28韋東奕輿論喧囂之外其實專注學術(shù)