DeepSeekV4的技術(shù)報告中提到了mHC、CSA、HCA、Muon和FP4等技術(shù),但沒有提到Engram。這引發(fā)了網(wǎng)友們的熱議。Engram由DeepSeek和北京大學(xué)聯(lián)合開源,主要研究大模型的記憶與效率問題。自發(fā)布以來,它一直是討論的焦點。
Engram的設(shè)計初衷是解決模型在處理如“倫敦是英國首都”這樣的事實時,不需要動用整個深層網(wǎng)絡(luò)重新推理,而是可以直接查詢。這樣不僅節(jié)省了顯存,還能釋放深層網(wǎng)絡(luò)容量用于更高階的推理。因此,很多人認(rèn)為Engram會成為V4的基礎(chǔ)架構(gòu)。然而,在V4發(fā)表后,人們發(fā)現(xiàn)論文中并沒有提及Engram,這讓不少人感到遺憾。
盡管如此,Engram的理念和技術(shù)仍在繼續(xù)發(fā)展。三篇后續(xù)論文展示了Engram的應(yīng)用潛力。其中一篇論文詳細(xì)介紹了Engram的工作原理:通過在Transformer模型中加入一個原生知識查表模塊,使得模型能夠直接查詢靜態(tài)知識,從而減少計算量。具體來說,Engram在第2層和第15層之間插入了哈希查找機制,將當(dāng)前token和前面幾個token組成的N-gram映射到一個巨大的嵌入表中,直接取出對應(yīng)的向量。門控機制確保了查找到的內(nèi)容與當(dāng)前上下文匹配。
實驗結(jié)果顯示,Engram在知識密集型任務(wù)上表現(xiàn)優(yōu)異,并且在通用推理和代碼數(shù)學(xué)方面也有顯著提升。此外,Engram還被應(yīng)用于CXL內(nèi)存池化,以解決大規(guī)模模型的內(nèi)存問題。另一個研究者則嘗試優(yōu)化Engram的哈希查表沖突問題,但結(jié)果并不理想。還有一個團隊將Engram擴展到視覺領(lǐng)域,取得了不錯的效果。
雖然Engram沒有出現(xiàn)在V4中,但它的理念和技術(shù)已經(jīng)在多個方向上得到應(yīng)用和發(fā)展。