DeepSeek團隊的研究論文登上了國際權(quán)威期刊《自然》的封面,通訊作者為梁文鋒。這篇論文詳細介紹了DeepSeek-R1推理模型的訓練細節(jié),并回應了關(guān)于模型蒸餾的質(zhì)疑。DeepSeek-R1是全球首個經(jīng)過同行評審的主流大語言模型,《自然》雜志指出,目前幾乎所有主流的大模型都還沒有經(jīng)過獨立同行評審,這一空白終于被DeepSeek打破。
研究顯示,大語言模型的推理能力可以通過純強化學習來提升,從而減少增強性能所需的人類輸入工作量。梁文鋒團隊的研究表明,訓練出的模型在數(shù)學和STEM領(lǐng)域研究生水平問題等任務上,比傳統(tǒng)訓練的大語言模型表現(xiàn)更好。DeepSeek-R1包含一個在人類監(jiān)督下的深入訓練階段,以優(yōu)化推理過程。該模型使用了強化學習而非人類示例來開發(fā)推理步驟,減少了訓練成本和復雜性。在評估AI表現(xiàn)的各項測試中,DeepSeek-R1-Zero和DeepSeek-R1的表現(xiàn)都十分優(yōu)異。
未來研究可以聚焦優(yōu)化獎勵過程,以確保推理和任務結(jié)果更可靠。
近日,DeepSeek團隊的研究論文登上了國際權(quán)威期刊《自然》的封面。梁文鋒擔任通訊作者,論文詳細介紹了DeepSeek - R1推理模型
2025-09-18 09:30:40梁文鋒論文登權(quán)威期刊自然封面北京大學與DeepSeek合作的論文有望獲得ACL 2025最佳論文獎。該論文由梁文鋒親自提交到arXiv,地址為https://arxiv.org/abs/2502.11089
2025-05-19 13:51:37北大DeepSeek論文或預定ACLBestPaper近日,美國《時代》周刊公布了2025年全球100位最具影響力人物名單。DeepSeek創(chuàng)始人梁文鋒入選該榜單。與他一同上榜的還有馬斯克、扎克伯格等知名科技領(lǐng)袖
2025-04-22 10:56:47DeepSeek創(chuàng)始人梁文鋒入選時代周刊美國《時代》周刊公布了“2025 年全球最具影響力 100 人”名單,DeepSeek 創(chuàng)始人梁文鋒入選。他被列入“Pioneers(拓荒者)”分類中
2025-04-18 22:55:22梁文鋒入選時代最具影響力100人