開源和低成本加速了模型層面的“平權(quán)”。中小團隊不需要重資產(chǎn)投入就可以蒸餾出高性能的小模型,并能在邊緣和端側(cè)算力上穩(wěn)定運行,這極大降低了對硬件算力的需求,為推理側(cè)應(yīng)用的爆發(fā)打下基礎(chǔ)。數(shù)據(jù)顯示,截至2025年9月,僅通義模型的全球下載量就超過6億次,衍生模型超17萬個。這一變化使得企業(yè)的AI投入逐漸從訓(xùn)練轉(zhuǎn)向推理。IDC預(yù)測,2028年中國智能算力規(guī)模將達到2781.9EFLOPS,這一增長源于推理端需求的極大釋放。IDC分析師指出,從2024年下半年以來,在邊緣完成模型推理,以及輕量級模型訓(xùn)練或相關(guān)處理已經(jīng)成為當(dāng)前客戶關(guān)注的焦點。
大模型“戰(zhàn)場”轉(zhuǎn)移對算力市場格局的影響,與訓(xùn)練和推理對算力的差異化要求密切相關(guān)。訓(xùn)練階段依賴高算力、長周期、集中式的云端資源,而推理呈現(xiàn)出邊緣化、碎片化、實時化、長尾化的特征。隨著AIGC、智能體、車聯(lián)網(wǎng)、AR/VR、工業(yè)自動化及云游戲等應(yīng)用場景對實時交互要求的提高,解決推理的“最后一公里”問題成為行業(yè)的關(guān)鍵挑戰(zhàn)。市場對低時延和具備隱私保護能力的AI推理需求激增,中心云在資源密集性上仍具優(yōu)勢,但其跨地域傳輸帶來的效率、性能與隱私風(fēng)險日益成為瓶頸。成本方面,終端用戶側(cè)流量不斷上升,每一次交互都涉及高昂的算力和帶寬消耗,使得推理服務(wù)的成本與使用量直接掛鉤,邊際成本居高不下,企業(yè)亟需更經(jīng)濟高效的推理方案。
實時性需求與成本壓力下,邊緣云成為解決AI推理“最后一公里”的關(guān)鍵基礎(chǔ)設(shè)施。邊緣云通過將計算及存儲部署在更接近數(shù)據(jù)源的位置,減少數(shù)據(jù)往返的帶寬消耗和傳輸延遲,實現(xiàn)實時推理與分析并保證數(shù)據(jù)安全性,幫助客戶降本增效。IDC在中國邊緣云市場跟蹤研究報告中指出,在AI推理場景中,邊緣云服務(wù)模式具有上線速度快、物理位置分布廣泛、更靠近終端用戶等特點,在某些場景尤其是大規(guī)模使用多模態(tài)模型生成內(nèi)容時,邊緣云服務(wù)具有獨特優(yōu)勢。憑借分布式架構(gòu)與就近推理能力,邊緣云形成對中心云推理的有力補充和協(xié)同,帶來了新的市場空間和競爭機會。目前網(wǎng)宿科技、白山云、PPIO等邊緣云廠商已明確將AI基礎(chǔ)設(shè)施作為公司的核心戰(zhàn)略,并推出GPU算力租賃、邊緣模型服務(wù)等主要產(chǎn)品和服務(wù)模式。
8月12日,華為將與中國銀聯(lián)共同發(fā)布AI推理最新應(yīng)用成果,并推出推理加速新技術(shù)
2025-08-10 16:14:45華為AI大動作