在人工智能芯片的競爭中,英偉達(dá)憑借其強(qiáng)大的技術(shù)實(shí)力和完整的生態(tài)系統(tǒng),構(gòu)筑了難以逾越的壁壘。然而,隨著AI應(yīng)用場景的擴(kuò)展,特別是在推理階段的需求爆發(fā),AMD等競爭者正在尋找突破口。
最新消息顯示,AMD利用DeepSeek模型走紅的機(jī)會,宣布將新的DeepSeek-V3模型集成到Instinct MI300X GPU上。這一集成旨在與SGLang配合使用,以實(shí)現(xiàn)最佳性能。DeepSeek-V3專門針對AI推理進(jìn)行了優(yōu)化,表明AMD正在積極布局AI應(yīng)用落地場景。
這種合作反映了AI行業(yè)格局的變化。過去兩年,大模型的訓(xùn)練需求主導(dǎo)了算力市場,英偉達(dá)憑借CUDA生態(tài)和H100系列GPU占據(jù)絕對優(yōu)勢。但隨著大模型進(jìn)入應(yīng)用落地階段,推理需求激增,企業(yè)更關(guān)注成本、能效和部署靈活性。AMD瞄準(zhǔn)這一窗口期,試圖通過優(yōu)化推理性能打破英偉達(dá)的壟斷。
AMD的Instinct MI300X是其AI戰(zhàn)略的核心武器。這款采用Chiplet設(shè)計(jì)的GPU集成1460億晶體管,配備192GB HBM3內(nèi)存,專為大規(guī)模AI推理設(shè)計(jì)。據(jù)AMD數(shù)據(jù),MI300X的推理性能較英偉達(dá)H100提升30%,內(nèi)存帶寬達(dá)5.3TB/s,尤其擅長實(shí)時(shí)對話、圖像生成等低延遲任務(wù)。不過,MI300X面臨生態(tài)短板和產(chǎn)能瓶頸兩大挑戰(zhàn)。
英偉達(dá)的CUDA生態(tài)已形成近乎壟斷的開發(fā)者壁壘,全球90%的AI框架依賴其工具鏈。盡管AMD推出開源的ROCm平臺并適配PyTorch、TensorFlow,但遷移成本高、社區(qū)支持不足的問題依然突出。例如,Meta雖采用MI300X運(yùn)行Llama 3.1模型的推理任務(wù),但訓(xùn)練階段仍依賴英偉達(dá)芯片。此外,2023年底臺積電先進(jìn)封裝產(chǎn)能緊張導(dǎo)致MI300X交付延遲,部分客戶轉(zhuǎn)投英偉達(dá),也暴露出AMD在供應(yīng)鏈管理上的脆弱性。
為應(yīng)對挑戰(zhàn),AMD加速硬件迭代并強(qiáng)化生態(tài)合作。2024年6月,AMD推出了升級版的MI325X芯片,這款產(chǎn)品采用了8個(gè)計(jì)算芯片、4個(gè)I/O芯片和8個(gè)內(nèi)存芯片的復(fù)雜設(shè)計(jì),通過2.5D和3D封裝技術(shù)實(shí)現(xiàn)整合。在性能方面,MI325X提供了1.3petaFLOPS的BF/FP16性能,或2.6petaFLOPS的FP8性能,超過了英偉達(dá)的H200。特別是在內(nèi)存容量上,MI325X配備了288GB的HBM3e內(nèi)存,是H200的兩倍多,內(nèi)存帶寬達(dá)到6TB/S。
AI芯片領(lǐng)域的領(lǐng)軍企業(yè)英偉達(dá)就近期關(guān)于其AI芯片延期發(fā)布的傳言進(jìn)行了回應(yīng)
2024-08-04 21:05:19英偉達(dá)回應(yīng)AI芯片推遲發(fā)布