3月1日,DeepSeek在知乎開(kāi)設(shè)官方賬號(hào),發(fā)布了《DeepSeek-V3/R1推理系統(tǒng)概覽》技術(shù)文章,首次公開(kāi)了模型推理系統(tǒng)的優(yōu)化細(xì)節(jié)及成本利潤(rùn)率等關(guān)鍵信息,標(biāo)志著“DeepSeek開(kāi)源周”正式結(jié)束。不久前,月之暗面、微軟研究院、清華大學(xué)、階躍星辰等項(xiàng)目參與者也在知乎分享了研究成果和經(jīng)歷。知乎是AI從業(yè)者和創(chuàng)業(yè)者密度最高的社區(qū)之一,此次DeepSeek選擇知乎作為發(fā)布平臺(tái),進(jìn)一步引領(lǐng)了全網(wǎng)重要的AI趨勢(shì)。
DeepSeek在知乎發(fā)布的文章詳細(xì)介紹了V3/R1推理系統(tǒng)。該系統(tǒng)的目標(biāo)是提高吞吐量并降低延遲。為實(shí)現(xiàn)這些目標(biāo),DeepSeek采用了大規(guī)??绻?jié)點(diǎn)專家并行(EP)方案,盡管這增加了系統(tǒng)的復(fù)雜性。文章主要探討了如何使用EP增加批量大小、隱藏傳輸耗時(shí)以及進(jìn)行負(fù)載均衡。
文章還披露了DeepSeek的成本和利潤(rùn)率。假設(shè)GPU租賃成本為2美元/小時(shí),總成本為每天87,072美元。如果所有tokens按DeepSeek R1的定價(jià)計(jì)算,理論上一天的總收入可達(dá)562,027美元,成本利潤(rùn)率為545%。
“DeepSeek開(kāi)源周”從2月24日至2月28日,陸續(xù)開(kāi)源了多個(gè)最新技術(shù)進(jìn)展,包括FlashMLA、DeepEP、DeepGEMM和3FS四個(gè)項(xiàng)目,以及DualPipe、EPLB等代碼庫(kù)。每次發(fā)布都在知乎引發(fā)了熱烈討論和贊嘆。
知乎大模型話題優(yōu)秀答主、算法工程師劉聰NPL評(píng)價(jià)稱:“DeepSeek和OpenAI一樣重要。”業(yè)內(nèi)人士認(rèn)為,“DeepSeek開(kāi)源周”的重要性甚至超過(guò)了OpenAI的發(fā)布會(huì)。DeepSeek通過(guò)大量開(kāi)源有力回應(yīng)了歐美關(guān)于其故意壓低訓(xùn)練成本的說(shuō)法,并證明了訓(xùn)練鏈路上存在巨大優(yōu)化空間。知乎編程話題優(yōu)秀答主平凡也表示,這些工作在國(guó)外的AI公司幾乎不可能完成。
此次收官文章再次激發(fā)了知乎上對(duì)AI的討論熱情,相關(guān)問(wèn)題下聚集了許多從業(yè)者。事實(shí)上,發(fā)完論文后在知乎親自回答已成為人工智能研究者的風(fēng)潮。例如,2月20日,月之暗面開(kāi)源MoBA框架的研發(fā)人員鹿恩哲和蘇劍林在知乎講述了研發(fā)思路,引發(fā)業(yè)界對(duì)稀疏注意力框架的討論。微軟研究院、清華大學(xué)團(tuán)隊(duì)以及階躍星辰開(kāi)源模型參與者也分享了各自的研究成果與歷程,被業(yè)界稱為一次“思維鏈開(kāi)源”。
知乎匯聚了廣泛的互聯(lián)網(wǎng)、AI、機(jī)器人等科技領(lǐng)域的從業(yè)者,成為他們交流思想的重要場(chǎng)所。全球矚目的DeepSeek將知乎作為開(kāi)源周的最后一站,進(jìn)一步印證了知乎作為AI討論第一陣地的獨(dú)特價(jià)值。