證券時(shí)報(bào)的文章內(nèi)容僅供參考,不構(gòu)成實(shí)質(zhì)性投資建議,據(jù)此操作風(fēng)險(xiǎn)自擔(dān)。下載“證券時(shí)報(bào)”官方APP或關(guān)注官方微信公眾號(hào),可以隨時(shí)了解股市動(dòng)態(tài),洞察政策信息,把握財(cái)富機(jī)會(huì)。
9月18日,DeepSeek團(tuán)隊(duì)的研究論文《DeepSeek-R1推理模型》登上了國(guó)際權(quán)威期刊《自然》的封面。梁文鋒擔(dān)任該論文的通訊作者。DeepSeek R1是首個(gè)通過(guò)同行評(píng)議的主要大語(yǔ)言模型,新版論文與今年1月未經(jīng)同行評(píng)審的初版有較大差異。
在同行評(píng)議過(guò)程中,DeepSeek團(tuán)隊(duì)減少了對(duì)模型的擬人化描述,并增加了技術(shù)細(xì)節(jié)說(shuō)明,包括訓(xùn)練數(shù)據(jù)類型和安全性考慮等,回應(yīng)了關(guān)于知識(shí)蒸餾的質(zhì)疑。DeepSeek否認(rèn)了使用OpenAI模型輸出進(jìn)行訓(xùn)練的說(shuō)法,明確表示DeepSeek-V3 Base(DeepSeek-R1的基座模型)使用的數(shù)據(jù)全部來(lái)自互聯(lián)網(wǎng),雖然可能包含GPT-4生成的結(jié)果,但絕非有意而為之,更沒(méi)有專門(mén)的蒸餾環(huán)節(jié)。為防止基準(zhǔn)測(cè)試數(shù)據(jù)污染,團(tuán)隊(duì)對(duì)DeepSeek-R1的預(yù)訓(xùn)練和后訓(xùn)練數(shù)據(jù)都實(shí)施了全面的去污染措施。
開(kāi)源之后,R1在Hugging Face上的下載量突破1090萬(wàn)次,成為全球最受歡迎的開(kāi)源推理模型之一。DeepSeek首次公開(kāi)了僅靠強(qiáng)化學(xué)習(xí)就能激發(fā)大模型推理能力的重要研究成果,啟發(fā)了全球AI研究者。R1的核心創(chuàng)新在于采用了“純強(qiáng)化學(xué)習(xí)”這一自動(dòng)化試錯(cuò)方法,通過(guò)獎(jiǎng)勵(lì)模型達(dá)到正確答案的行為來(lái)學(xué)習(xí)推理策略,而非傳統(tǒng)模仿人類預(yù)設(shè)的推理模式。補(bǔ)充材料中還首次公布了R1訓(xùn)練成本僅為29.4萬(wàn)美元,加上約600萬(wàn)美元的基礎(chǔ)模型成本,遠(yuǎn)低于其他主流AI公司的訓(xùn)練成本。
今年1月,DeepSeek R1模型發(fā)布時(shí),其卓越的推理能力和極低的開(kāi)發(fā)成本曾引發(fā)全球科技股大幅下跌。作為全球首個(gè)通過(guò)同行評(píng)審的主流大語(yǔ)言模型,《自然》期刊將該篇論文作為封面論文,并在評(píng)論報(bào)道文章中表達(dá)了贊賞和肯定,認(rèn)為這標(biāo)志著中國(guó)在大模型基礎(chǔ)研究領(lǐng)域取得重要突破。在AI行業(yè)快速發(fā)展中,未經(jīng)證實(shí)的說(shuō)法和炒作不在少數(shù)?!蹲匀弧冯s志認(rèn)為,依靠獨(dú)立研究人員進(jìn)行的同行評(píng)審是抑制AI行業(yè)過(guò)度炒作的有效方式。DeepSeek所做的一切,是非常值得歡迎的先例。
8月21日,DeepSeek正式發(fā)布了最新大語(yǔ)言模型DeepSeek-V3.1。新升級(jí)版本的變化主要體現(xiàn)在三個(gè)方面:混合推理架構(gòu)、更高的思考效率以及更強(qiáng)的Agent能力。DeepSeek-V3.1實(shí)現(xiàn)了一個(gè)模型同時(shí)支持思考模式與非思考模式。DeepSeek是2023年成立于杭州的人工智能公司,由幻方量化孵化,創(chuàng)始團(tuán)隊(duì)由梁文鋒領(lǐng)銜,成員來(lái)自頂尖高校與國(guó)際機(jī)構(gòu)的技術(shù)專家。
韋東奕,北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院助理教授、研究員,近日開(kāi)通個(gè)人社交賬號(hào),吸引了大量網(wǎng)民關(guān)注
2025-06-11 19:38:33韋東奕輿論喧囂之外專注學(xué)術(shù)韋東奕,北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院助理教授、研究員,最近開(kāi)通了個(gè)人社交賬號(hào),吸引了眾多網(wǎng)民的關(guān)注
2025-06-11 00:33:28韋東奕輿論喧囂之外其實(shí)專注學(xué)術(shù)