第三,
雖然存在關(guān)于DeepSeek在訓(xùn)練過程中使用了更先進的美國模型輸出進行蒸餾的指控,但目前沒有任何確鑿證據(jù)證實此事,蒸餾在DeepSeek V3和R1模型訓(xùn)練中究竟扮演了多重要的角色也尚不明確。
從DeepSeek公開發(fā)布的論文來看,其所詳細描述的創(chuàng)新方法,在解釋模型性能時顯然起到了更關(guān)鍵的作用。
第四,正如我之前詳細說明過的,
DeepSeek用于訓(xùn)練其模型的先進GPU,都是在美國出口管制尚未限制對華出口的時期合法獲得的。
市面上流傳的一些說法,稱DeepSeek掌握了一個包含5萬顆H100GPU的大型集群,但根據(jù)與眾多行業(yè)內(nèi)部人士及了解中國高端GPU供應(yīng)情況的人的交流,這種說法已經(jīng)被證實是沒有依據(jù)的。此外,DeepSeek將其模型開源,并在研究論文中詳細披露了訓(xùn)練和優(yōu)化方法,這些都清晰表明:DeepSeek的優(yōu)化策略是專門為了克服其可用硬件資源的限制而設(shè)計的,包括一批A100GPU和少量H800GPU——而這些硬件都是在H800也被列入出口管制清單之前獲得的。無論如何,很明顯,DeepSeek會繼續(xù)利用現(xiàn)有的英偉達GPU資源,同時也在尋求使用國產(chǎn)AI硬件開發(fā)下一代模型,特別是來自華為的硬件,比如目前已經(jīng)部署在CloudMatrix384集群中、并在國內(nèi)市場銷售的昇騰910C芯片。未來,DeepSeek還可能利用華為硬件和云服務(wù)的進一步升級,比如傳聞中的昇騰910D以及昇騰920系列處理器。
關(guān)于所謂“中國軍方和政府資助DeepSeek研究”的報告,其實相當牽強。
大約在《DeepSeek揭秘》報告發(fā)布的同時,咨詢公司Exiger也發(fā)布了一份關(guān)于DeepSeek的報告,這類“研究”在近期針對中國企業(yè)的報道中很常見。這份報告充滿了將關(guān)系錯誤歸因、無端指控DeepSeek存在“欺騙”行為的低級錯誤。 報告標題為《DeepSeek的欺騙:中國軍方和政府如何資助DeepSeek的AI研究》,但這一標題完全不準確,因為DeepSeek的研發(fā)資金完全來自其母公司幻方資本(High Flyer Capital)的投資,這一事實有清晰的文件記錄支持。
在過去幾周里,美國科技界對DeepSeek的討論異常熱烈,焦點集中在芯片供應(yīng)和技術(shù)壁壘上。人們紛紛猜測,DeepSeek到底囤積了多少芯片,又通過哪些手段繞過了美國的出口管制
2025-02-16 10:26:58美國專家喊話Deepseek創(chuàng)始人聯(lián)系自己