DeepSeek提到的FP8到底是啥 引發(fā)AI圈熱議!DeepSeek V3.1發(fā)布后,一則官方留言在AI圈引起轟動。短短不到20個字的留言中提到新的架構和下一代國產(chǎn)芯片,信息量巨大。受此影響,國產(chǎn)芯片企業(yè)的股價紛紛上漲,例如寒武紀早盤盤中大漲近14%,總市值躍居科創(chuàng)板頭名。半導體ETF也在半天內大漲5.89%。
許多人對UE8M0 FP8這一概念感到困惑。UE8M0 FP8可以拆分為兩部分解釋。UE8M0是MXFP8路徑中的“縮放因子”,而MXFP8是Open Compute Project在2023年發(fā)布的8 bit微縮塊格式。Open Compute Project是一個由Facebook(現(xiàn)Meta)、英特爾、Rackspace等發(fā)起的開源硬件協(xié)作計劃,旨在通過共享數(shù)據(jù)中心及服務器設計推動行業(yè)效率提升。其成員包括微軟、谷歌、亞馬遜、AMD、英偉達以及國內的阿里、騰訊、百度等公司。
MXFP8基于FP8建立,將常規(guī)浮點格式壓縮到8 bit。MXFP8的核心思想是將張量切成固定長度的“塊”,為每個塊指定一個2的整數(shù)次冪作為“縮放因子”,然后將塊內所有數(shù)值除以這個系數(shù)后再寫成FP8。這種塊級的縮放方式保留了8 bit位寬,同時擴展了可用動態(tài)范圍。UE8M0中的U表示無符號,E和M分別代表指數(shù)位和尾數(shù)位分配到的bit數(shù)。UE8M0指8個bit全部分配給了指數(shù)位。
采用全指數(shù)表示縮放因子的方式有多個好處。首先,處理器在根據(jù)縮放因子復原數(shù)據(jù)時只需移動指數(shù)位,無需進行浮點乘法、規(guī)格化或舍入邏輯,縮短了時鐘關鍵路徑。此外,UE8M0的動態(tài)范圍覆蓋2^(?127)到2^128,為后續(xù)塊縮放提供了充足空間。它還能解決單尺度FP8無法同時處理大/小值的問題,減少了信息損失。
UE8M0 FP8更適配“下一代國產(chǎn)芯片”。目前,大部分已量產(chǎn)的國產(chǎn)AI加速器仍使用FP16/BF16 + INT8計算通路,未集成完整的FP8乘加單元。但摩爾線程MUSA 3.1 GPU、芯原VIP9000 NPU等新款國產(chǎn)芯片已在宣傳資料中列出“原生 FP8”或“Block FP8”支持,并與多家廠商聯(lián)合驗證UE8M0格式。雖然下一代國產(chǎn)芯片在HBM/LPPDDR帶寬方面仍有差距,但UE8M0讓一組32個FP8數(shù)據(jù)只追加8bit縮放引子,相比傳統(tǒng)FP32節(jié)省75%流量,成為重要優(yōu)化方向。
網(wǎng)友們猜測DeepSeek可能是在說哪家國產(chǎn)芯片。首批通過“DeepSeek大模型適配”的8家廠商中,寒武紀被看作“頭號種子選手”,市場反應強烈。海光、沐曦、中昊芯英和摩爾線程等也被提及。華為昇騰雖然暫不支持原生FP8,但預計未來推出的910D可能會支持。這些國產(chǎn)芯片一旦支持UE8M0 FP8,意味著國產(chǎn)AI正走向軟硬協(xié)同階段,減少對國外算力的依賴。這將大幅提升國產(chǎn)芯片的性價比,使其更具競爭優(yōu)勢。DeepSeek通過改動精度格式,主動貼合國產(chǎn)芯片的最佳性能點,構建了一個統(tǒng)一的生態(tài)坐標系。