盡管春節(jié)假期已經(jīng)過半,但“來自東方的神秘力量的 DeepSeek”仍在全球范圍內(nèi)引起熱議。各路業(yè)內(nèi)人士從不同角度分析 DeepSeek 的模型和技術(shù)。
韓國 Mirae Asset Securities Research 的一名分析師在 X 撰寫長文分析稱,這一突破是通過實(shí)施大量細(xì)粒度優(yōu)化和使用英偉達(dá)的匯編式 PTX 編程實(shí)現(xiàn)的,而非通過 CUDA 中的某些功能。CUDA 是由英偉達(dá)開發(fā)的一種通用編程框架,允許開發(fā)者利用 GPU 進(jìn)行通用計(jì)算。如果 DeepSeek 繞過了 CUDA,這說明其研發(fā)團(tuán)隊(duì)在大模型訓(xùn)練中采用了不同的技術(shù)路徑。
對于程序開發(fā)人員來說,CUDA 類似于一種高級語言,降低了開發(fā)難度,使開發(fā)者能夠?qū)W⒂谒惴ㄟ壿嫸鵁o需過多考慮硬件執(zhí)行細(xì)節(jié)。例如,使用高級語言進(jìn)行變量賦值操作只需一條命令,而用匯編語言則需要多條指令并理解寄存器、內(nèi)存等概念。因此,CUDA 便于開發(fā)基于 GPU 的算法設(shè)計(jì)。
大模型開發(fā)商通?;?CUDA 進(jìn)行研發(fā),因?yàn)?CUDA 已經(jīng)封裝了一些常用函數(shù),簡化了開發(fā)過程。然而,這種通用性也帶來了一定的靈活性損失。對于有特定需求的開發(fā)者,如需要精細(xì)化控制多個(gè) GPU 之間的數(shù)據(jù)傳輸,CUDA 可能無法提供高效的解決方案。
當(dāng)使用單個(gè) GPU 時(shí),CUDA 非常適用。但在多節(jié)點(diǎn)多 GPU 環(huán)境下,CUDA 的抽象層面效率較低。開發(fā)者可以通過組合 GPU 驅(qū)動(dòng)提供的函數(shù)接口來提高效率,或者直接調(diào)用底層硬件接口以實(shí)現(xiàn)更高效的大模型研發(fā)。繞過 CUDA 可以直接根據(jù) GPU 的驅(qū)動(dòng)函數(shù)進(jìn)行新的開發(fā),從而實(shí)現(xiàn)更加細(xì)粒度的操作。
DeepSeek 在多節(jié)點(diǎn)通信時(shí)繞過了 CUDA 直接使用 PTX,這使得模型訓(xùn)練速度更快。這意味著在相同時(shí)間內(nèi)可以處理更多數(shù)據(jù),間接提高了模型效果。繞過 CUDA 并非新鮮做法,一些開源框架如 Triton 也在嘗試替代 CUDA。
AI 技術(shù)人員在本科階段通常接觸的是基于深度學(xué)習(xí)框架(如 Python)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練,很少直接編寫 CUDA 相關(guān)的 C++ 代碼。工作后,他們可能因項(xiàng)目需求接觸到針對具體硬件資源的編程,但通常不需要繞過 CUDA 來寫模型訓(xùn)練算法。然而,由于算力短缺等原因,大模型訓(xùn)練確實(shí)需要更高效的算力利用方法。
DeepSeek-V3 的技術(shù)報(bào)告提到使用了英偉達(dá)的 PTX 語言。相比 CUDA 提供的編程接口,PTX 能更精細(xì)地控制 GPU 之間的數(shù)據(jù)傳輸,但也要求更高的專業(yè)技能。繞過 CUDA 的做法具有一定的技術(shù)難度,需要開發(fā)者既懂 AI 算法又懂計(jì)算機(jī)系統(tǒng)架構(gòu)。DeepSeek 顯然招聘了具備這些技能的人才,并將他們有效地組織起來。
此外,DeepSeek 的技術(shù)報(bào)告表明其主體實(shí)現(xiàn)仍基于 CUDA 接口,但在通信部分繞開了 CUDA。這意味著 DeepSeek 擁有一些擅長寫 PTX 語言的內(nèi)部開發(fā)者。未來,若使用國產(chǎn) GPU,DeepSeek 將更容易適配這些硬件。從工程角度看,DeepSeek 的技術(shù)非常有技巧,且已與 AMD 合作,未來可能與其他 GPU 廠商合作。韓國分析師認(rèn)為,這反映了 DeepSeek 在面對“GPU 短缺危機(jī)”時(shí)展現(xiàn)出的緊迫感和創(chuàng)造力。
11月13日以來,A股經(jīng)歷階段性調(diào)整,各指數(shù)與行業(yè)板塊呈現(xiàn)普跌態(tài)勢,市場整體觀望情緒加重。
2024-11-25 09:42:30業(yè)內(nèi)解析A股本輪階段性調(diào)整