華為計劃于8月12日在2025金融AI推理應用落地與發(fā)展論壇上發(fā)布一項AI推理領域的突破性技術成果。這項成果有望減少中國AI推理對高帶寬內(nèi)存技術的依賴,提升國內(nèi)AI大模型推理性能,完善中國AI推理生態(tài)。
此前,華為在AI推理領域已有技術突破。例如,2025年3月,北京大學與華為聯(lián)合發(fā)布了DeepSeek全棧開源推理方案。該方案基于北大自研的SCOW算力平臺系統(tǒng)和鶴思調(diào)度系統(tǒng),整合了DeepSeek、openEuler、MindSpore與vLLM/RAY等社區(qū)開源組件,在華為昇騰上實現(xiàn)了高效的DeepSeek推理。
華為昇騰在性能方面也取得了多項進展。比如,在CloudMatrix 384超節(jié)點部署DeepSeek V3/R1時,單卡Decode吞吐量在50ms時延約束下超過1920 Tokens/s;而Atlas 800I A2推理服務器在100ms時延約束下單卡吞吐量達到808 Tokens/s。
此外,科大訊飛與華為的合作也取得了顯著成效。雙方率先在國產(chǎn)算力上實現(xiàn)了MoE模型的大規(guī)??绻?jié)點專家并行集群推理,使推理吞吐量提升了3.2倍,端到端時延降低了50%。
8月12日,華為將與中國銀聯(lián)共同發(fā)布AI推理最新應用成果,并推出推理加速新技術
2025-08-10 16:14:45華為AI大動作