AI初創(chuàng)公司DeepSeek的論文最近登上了《自然》雜志。該公司表示,其強(qiáng)大的AI模型R1的成功并不依賴于模仿其他大型語言模型生成的示例進(jìn)行訓(xùn)練。這一聲明隨著R1模型同行評審版本的發(fā)布而公布。
論文詳細(xì)介紹了DeepSeek如何增強(qiáng)標(biāo)準(zhǔn)的大型語言模型以應(yīng)對推理任務(wù),并首次揭示了訓(xùn)練R1的成本為29.4萬美元。這不包括公司在開發(fā)基礎(chǔ)LLM上花費的大約600萬美元,但總成本仍然遠(yuǎn)低于競爭對手模型所花費的數(shù)千萬美元。R1主要使用英偉達(dá)的H800芯片進(jìn)行訓(xùn)練。
R1被認(rèn)為是第一個經(jīng)過同行評審過程的主要大型語言模型。Hugging Face的機(jī)器學(xué)習(xí)工程師劉易斯·圖恩斯特爾審閱了該論文后表示,這是一個非常受歡迎的先例,因為公開分享這一過程有助于評估這些系統(tǒng)是否構(gòu)成風(fēng)險。
自1月份發(fā)布以來,DeepSeek因其與世界領(lǐng)先的AI應(yīng)用相比具有明顯競爭優(yōu)勢且成本低廉而備受贊譽和關(guān)注。據(jù)Sensor Tower數(shù)據(jù),DeepSeek推出的應(yīng)用在最初的18天內(nèi)獲得了1600萬次下載,幾乎是OpenAI的ChatGPT首次發(fā)布時900萬次下載量的兩倍。
公開資料顯示,DeepSeek成立于2023年7月,由知名量化資管巨頭幻方量化創(chuàng)立,專注于開發(fā)先進(jìn)的大語言模型和技術(shù)?;梅搅炕恼崎T人梁文鋒是DeepSeek的創(chuàng)始人。
9月17日,DeepSeek團(tuán)隊的研究論文《DeepSeek-R1》登上了國際權(quán)威期刊《自然》的封面。梁文鋒擔(dān)任通訊作者
2025-09-18 20:27:37清華教授談DeepSeek登自然封面北京大學(xué)與DeepSeek合作的論文有望獲得ACL 2025最佳論文獎。該論文由梁文鋒親自提交到arXiv,地址為https://arxiv.org/abs/2502.11089
2025-05-19 13:51:37北大DeepSeek論文或預(yù)定ACLBestPaper北京時間10月10日,美國《時代》雜志公布了2025年度最佳發(fā)明榜單,共有300款產(chǎn)品上榜,其中包括宇樹科技、DeepSeek、華為、比亞迪和蘋果公司的產(chǎn)品
2025-10-10 12:17:56時代雜志公布年度300大發(fā)明榜單