清華大學KVCache.AI團隊聯(lián)合趨境科技發(fā)布了KTransformers開源項目的重大更新,成功打破了大模型推理算力的門檻。這次更新支持在24G顯存(4090D)的設備上本地運行DeepSeek-R1、V3的671B滿血版。
KTransformers項目的核心在于異構(gòu)計算策略。通過稀疏性利用,MoE架構(gòu)每次僅激活部分專家模塊,團隊將非共享的稀疏矩陣卸載至CPU內(nèi)存,并結(jié)合高速算子處理,使顯存占用壓縮至24GB。此外,項目采用了4bit量化技術(shù),配合Marlin GPU算子,效率提升了3.87倍;CPU端通過llamafile實現(xiàn)多線程并行,預處理速度達到286 tokens/s。CUDA Graph加速減少了CPU/GPU通信開銷,單次解碼只需一次完整的CUDA Graph調(diào)用,生成速度可達14 tokens/s。
這一突破帶來的影響顯著。傳統(tǒng)方案中,使用8卡A100服務器的成本超過百萬,按需計費每小時數(shù)千元。而現(xiàn)在,單卡RTX 4090方案的整機成本約為2萬元,功耗僅為80W,非常適合中小團隊和個人開發(fā)者。NVIDIA RTX 4090運行DeepSeek-R1滿血版的案例不僅展示了技術(shù)奇跡,也是開源精神與硬件潛能結(jié)合的典范。這證明了在AI快速發(fā)展的時代,創(chuàng)新往往源于對“不可能”的挑戰(zhàn)。
在ChatGPT掀起全球AI熱潮兩年后,大模型領域迎來了一位新星——DeepSeek。憑借高性能、低成本以及完全開源的特點,DeepSeek迅速吸引了公眾的目光,成為市場上的“鯰魚”
2025-02-14 17:24:33從DeepSeek看AI趨勢進入2月份以來,受DeepSeek引發(fā)的本地部署大模型等因素驅(qū)動,上市公司機構(gòu)調(diào)研的重點轉(zhuǎn)向了AI大模型、AI算力、人形機器人等領域
2025-02-16 13:09:04機構(gòu)扎堆調(diào)研AI板塊就在DeepSeek在華爾街和應用下載榜上引起轟動的同時,深度求索公司在除夕夜再次推出了新的產(chǎn)品
2025-02-01 13:13:44清華翟季冬2月5日,聯(lián)想集團與沐曦股份聯(lián)合發(fā)布了基于DeepSeek大模型的一體機解決方案
2025-02-05 16:24:07聯(lián)想聯(lián)合沐曦發(fā)布DeepSeek一體機解決方案