DeepSeek一句話讓國(guó)產(chǎn)芯片集體暴漲!DeepSeek V3.1發(fā)布后,一則官方留言讓整個(gè)AI圈轟動(dòng)了。短短不到20個(gè)字的留言蘊(yùn)含了巨大信息量,引發(fā)了國(guó)產(chǎn)芯片企業(yè)股價(jià)上漲。例如寒武紀(jì)早盤大漲近14%,總市值躍居科創(chuàng)板頭名。半導(dǎo)體ETF也在半天內(nèi)大漲5.89%。
人們紛紛對(duì)UE8M0 FP8的概念產(chǎn)生疑問(wèn)。UE8M0 FP8可以拆分成兩部分解釋。前面的UE8M0是MXFP8路徑里的“縮放因子”。MXFP8是Open Compute Project在2023年發(fā)布的8 bit微縮塊格式。Open Compute Project是一個(gè)由Facebook(現(xiàn)Meta)聯(lián)合英特爾、Rackspace等發(fā)起的開(kāi)源硬件協(xié)作計(jì)劃,旨在通過(guò)共享數(shù)據(jù)中心及服務(wù)器設(shè)計(jì)推動(dòng)行業(yè)效率提升。其成員包括微軟、谷歌、亞馬遜、AMD、英偉達(dá)以及國(guó)內(nèi)的阿里、騰訊、百度等。
MXFP8以FP8為基礎(chǔ)建立,F(xiàn)P8是一種將常規(guī)浮點(diǎn)格式壓縮到8 bit的編碼方式。MXFP8的核心思想是把張量切成固定長(zhǎng)度的“塊”,然后為每個(gè)塊指定一個(gè)2的整數(shù)次冪作為“縮放因子”,將塊內(nèi)所有數(shù)除以這個(gè)系數(shù)后再寫成FP8。這種塊級(jí)的縮放既保留了8 bit位寬,又?jǐn)U展了可用動(dòng)態(tài)范圍幾十倍。UE8M0中的U表示無(wú)符號(hào),E和M分別表示指數(shù)位和尾數(shù)位分配到的bit數(shù),E8M0指8個(gè)bit全都分配給了指數(shù)位。其他常用的格式還有E4M3、E5M2等。
采用全指數(shù)表示縮放因子的方式有諸多好處。由于UE8M0不含尾數(shù)與符號(hào)位,處理器在根據(jù)縮放因子復(fù)原數(shù)據(jù)時(shí)只需移動(dòng)指數(shù)位,而不需要浮點(diǎn)乘法或規(guī)格化,縮短了時(shí)鐘關(guān)鍵路徑。此外,UE8M0的動(dòng)態(tài)范圍覆蓋廣泛,能解決單尺度FP8無(wú)法同時(shí)顧及大/小值的問(wèn)題,大幅減少信息損失。
大部分已量產(chǎn)的國(guó)產(chǎn)AI加速器仍沿用FP16/BF16 + INT8的計(jì)算通路,并未集成完整的FP8乘加單元。不過(guò),摩爾線程MUSA 3.1 GPU、芯原VIP9000 NPU等新款國(guó)產(chǎn)芯片已經(jīng)在宣傳資料中列出“原生 FP8”或“Block FP8”支持,并與 DeepSeek、華為等15家廠商聯(lián)合驗(yàn)證UE8M0格式。雖然下一代國(guó)產(chǎn)芯片已在為FP8做出準(zhǔn)備,但HBM/LPPDDR帶寬仍然與頂尖芯片存在較大差距。UE8M0讓一組32個(gè)FP8數(shù)據(jù)只追加8bit縮放引子,相比傳統(tǒng)的4B(32bit) FP32縮放直接節(jié)省75%的流量,被視為下一代架構(gòu)的重要優(yōu)化方向。