盡管春節(jié)假期已經(jīng)過半,但“來自東方的神秘力量的 DeepSeek”仍在全球范圍內(nèi)引起熱議。各路業(yè)內(nèi)人士從不同角度分析 DeepSeek 的模型和技術(shù)。
韓國 Mirae Asset Securities Research 的一名分析師在 X 撰寫長文分析稱,這一突破是通過實(shí)施大量細(xì)粒度優(yōu)化和使用英偉達(dá)的匯編式 PTX 編程實(shí)現(xiàn)的,而非通過 CUDA 中的某些功能。CUDA 是由英偉達(dá)開發(fā)的一種通用編程框架,允許開發(fā)者利用 GPU 進(jìn)行通用計(jì)算。如果 DeepSeek 繞過了 CUDA,這說明其研發(fā)團(tuán)隊(duì)在大模型訓(xùn)練中采用了不同的技術(shù)路徑。
對(duì)于程序開發(fā)人員來說,CUDA 類似于一種高級(jí)語言,降低了開發(fā)難度,使開發(fā)者能夠?qū)W⒂谒惴ㄟ壿嫸鵁o需過多考慮硬件執(zhí)行細(xì)節(jié)。例如,使用高級(jí)語言進(jìn)行變量賦值操作只需一條命令,而用匯編語言則需要多條指令并理解寄存器、內(nèi)存等概念。因此,CUDA 便于開發(fā)基于 GPU 的算法設(shè)計(jì)。
大模型開發(fā)商通?;?CUDA 進(jìn)行研發(fā),因?yàn)?CUDA 已經(jīng)封裝了一些常用函數(shù),簡化了開發(fā)過程。然而,這種通用性也帶來了一定的靈活性損失。對(duì)于有特定需求的開發(fā)者,如需要精細(xì)化控制多個(gè) GPU 之間的數(shù)據(jù)傳輸,CUDA 可能無法提供高效的解決方案。
當(dāng)使用單個(gè) GPU 時(shí),CUDA 非常適用。但在多節(jié)點(diǎn)多 GPU 環(huán)境下,CUDA 的抽象層面效率較低。開發(fā)者可以通過組合 GPU 驅(qū)動(dòng)提供的函數(shù)接口來提高效率,或者直接調(diào)用底層硬件接口以實(shí)現(xiàn)更高效的大模型研發(fā)。繞過 CUDA 可以直接根據(jù) GPU 的驅(qū)動(dòng)函數(shù)進(jìn)行新的開發(fā),從而實(shí)現(xiàn)更加細(xì)粒度的操作。
DeepSeek 在多節(jié)點(diǎn)通信時(shí)繞過了 CUDA 直接使用 PTX,這使得模型訓(xùn)練速度更快。這意味著在相同時(shí)間內(nèi)可以處理更多數(shù)據(jù),間接提高了模型效果。繞過 CUDA 并非新鮮做法,一些開源框架如 Triton 也在嘗試替代 CUDA。
11月13日以來,A股經(jīng)歷階段性調(diào)整,各指數(shù)與行業(yè)板塊呈現(xiàn)普跌態(tài)勢(shì),市場整體觀望情緒加重。
2024-11-25 09:42:30業(yè)內(nèi)解析A股本輪階段性調(diào)整周三A股市場出現(xiàn)探底回升的態(tài)勢(shì)。
2024-11-28 09:03:11業(yè)內(nèi):短線A股走勢(shì)漸漸樂觀起來