2月18日,DeepSeek官方在海外社交平臺(tái)X上發(fā)布了一篇關(guān)于NSA(Natively Sparse Attention,原生稀疏注意力)的技術(shù)論文。這種機(jī)制用于超快速長文本訓(xùn)練與推理,硬件對齊且可原生訓(xùn)練。NSA針對現(xiàn)代硬件進(jìn)行了優(yōu)化設(shè)計(jì),能夠加速推理過程,降低預(yù)訓(xùn)練成本,且不犧牲性能。它在通用基準(zhǔn)測試、長文本任務(wù)和基于指令的推理中均能達(dá)到或超越全注意力模型的表現(xiàn)。
論文指出,業(yè)界越來越認(rèn)識(shí)到長上下文建模對于下一代大型語言模型的重要性。推動(dòng)這一需求的應(yīng)用包括深度推理、倉庫級代碼生成和多輪自主代理系統(tǒng)。然而,隨著序列長度的增加,標(biāo)準(zhǔn)注意力機(jī)制的高復(fù)雜度成為關(guān)鍵的延遲瓶頸。理論估計(jì)表明,在使用softmax架構(gòu)時(shí),注意力計(jì)算占解碼64k長度上下文總延遲的70%-80%,這凸顯了對更高效注意力機(jī)制的迫切需求。
DeepSeek團(tuán)隊(duì)表示,NSA的核心價(jià)值在于平衡效率與性能,既降低計(jì)算成本,又保持甚至提升模型能力。NSA為處理長上下文任務(wù)提供了一種高效的解決方案,有助于推動(dòng)更強(qiáng)大、更經(jīng)濟(jì)的語言模型的發(fā)展,尤其是在需要處理長文本的應(yīng)用場景中。通過高效的長序列處理能力,NSA使模型能夠直接處理整本書籍、代碼倉庫或多輪對話,擴(kuò)展了大語言模型在文檔分析、代碼生成、復(fù)雜推理等領(lǐng)域的應(yīng)用邊界。例如,Gemini 1.5 Pro已展示長上下文潛力,NSA可進(jìn)一步降低此類模型的訓(xùn)練與推理成本。
此外,NSA能夠降低算力門檻與部署成本。端到端稀疏訓(xùn)練可以減少預(yù)訓(xùn)練所需的計(jì)算資源,降低企業(yè)開發(fā)大模型的資金與技術(shù)門檻。同時(shí),它可以加速推理,使長文本生成(如代碼補(bǔ)全、故事續(xù)寫)的實(shí)時(shí)性更高,適用于邊緣設(shè)備或低延遲場景。
一位X用戶在DeepSeek帖子下評論稱,“NSA機(jī)制改變了游戲規(guī)則。超快速長上下文訓(xùn)練對于擴(kuò)大教育領(lǐng)域AI至關(guān)重要,這與個(gè)性化學(xué)習(xí)愿景完美契合。”還有網(wǎng)友對此調(diào)侃“RIP Nvidia”。
自1月20日發(fā)布DeepSeek-R1以來,DeepSeek一直較為低調(diào),這是他們在這段時(shí)間內(nèi)唯一發(fā)布的技術(shù)動(dòng)態(tài)。有X網(wǎng)友表示,“DeepSeek團(tuán)隊(duì)正在積極工作!”
在科技領(lǐng)域風(fēng)起云涌的今天,一家名為DeepSeek的AI公司突然成為了全球關(guān)注的焦點(diǎn)
2025-02-11 14:32:25DeepSeek梁文鋒身家暴漲