在AI領(lǐng)域,技術(shù)創(chuàng)新與突破一直是各大廠商和研究機構(gòu)競相追逐的焦點。近日,DeepSeek的梁文鋒與月之暗面的楊植麟因各自發(fā)表的論文“撞車”而引發(fā)廣泛關(guān)注。同時,DeepSeek迅速崛起讓月之暗面陷入尷尬境地,甚至有消息稱月之暗面已大幅降低廣告投放。
2月18日,DeepSeek與月之暗面幾乎同時發(fā)布了最新論文,主題都是挑戰(zhàn)Transformer架構(gòu)的核心注意力機制,旨在使其更高效處理更長上下文。DeepSeek的論文提出名為NSA的新架構(gòu),在基準測試中表現(xiàn)出色,準確率相同或更高,處理64k標記序列時速度提高至11.6倍,訓練更高效且所需算力更少。
月之暗面的論文則提出了MoBA架構(gòu),使用將“詞”變成塊的方法,并設(shè)計了一套可以自由切換全注意力和稀疏注意力機制的方式,給現(xiàn)有全注意力模型更多適配空間。這兩篇論文展示了兩位創(chuàng)始人在技術(shù)領(lǐng)域的深厚功底,揭示了AI大模型技術(shù)發(fā)展的新方向。清華大學教授章明星指出,兩篇論文都指向了可反向傳遞的learned sparse attention。
與此同時,DeepSeek憑借其強大的技術(shù)實力和精準的市場定位迅速嶄露頭角。據(jù)報道,DeepSeek在幾十天內(nèi)達到3500萬DAU,這一成績令業(yè)界震驚。相比之下,月之暗面雖然推出了Kimi等產(chǎn)品,但在用戶增長方面顯得力不從心。盡管投入大量資金進行廣告投放,但效果不佳,一年多時間僅獲得不足千萬量級的日活數(shù)據(jù)。
DeepSeek的崛起給月之暗面帶來了巨大壓力。一方面,DeepSeek的技術(shù)實力和市場表現(xiàn)削弱了月之暗面的技術(shù)優(yōu)勢;另一方面,DeepSeek的迅速擴張也擠壓了月之暗面的市場份額。在此背景下,月之暗面不得不重新審視自己的市場定位和技術(shù)路線。團隊計劃重新訓練基礎(chǔ)模型,同時關(guān)注應(yīng)用層機會,如參考OpenAI的DeepResearch產(chǎn)品方向。盡管月之暗面擁有多模態(tài)能力、資本儲備和品牌余溫等優(yōu)勢,但在競爭激烈的AI市場,留給它的時間窗口正在縮小。
從行業(yè)影響來看,DeepSeek的爆發(fā)重塑了中國大模型賽道。資本邏輯從過去的“燒錢換估值”轉(zhuǎn)向關(guān)注技術(shù)性價比與商業(yè)化閉環(huán);生態(tài)鏈重構(gòu),百度、騰訊等大廠紛紛接入DeepSeek的開源模型,閉源玩家生存空間被擠壓;技術(shù)平民化趨勢顯現(xiàn),算法創(chuàng)新降低了對進口硬件的依賴,國產(chǎn)芯片能效比提升。在這樣的環(huán)境下,月之暗面面臨巨大挑戰(zhàn),如何在開源生態(tài)、成本控制或垂直場景中找到新支點成為破局關(guān)鍵。
2025年2月19日星期三梁文鋒帶領(lǐng)實習生袁景陽發(fā)表了一篇關(guān)于原生稀疏注意力(NSA)的技術(shù)論文
2025-02-20 06:16:03梁文鋒帶實習生發(fā)論文