电竞下注-中国电竞赛事及体育赛事平台

中華網(wǎng) china.com

新聞

清華光電融合芯片算力是GPU的3000多倍?媒體搞出的大新聞

關(guān)鍵詞:
2024-12-02 14:18:14  風(fēng)云之聲

近年來(lái),人工智能突破引發(fā)了高性能GPU需求暴增。GPU生產(chǎn)商英偉達(dá)2023年市值增長(zhǎng)239.2%,2024年又漲了45.9%,截至2月12日市值達(dá)到1.78萬(wàn)億美元。GPU已經(jīng)成為全球高科技業(yè)界最炙手可熱的商品之一,美國(guó)商務(wù)部還特別針對(duì)中國(guó)限制GPU性能,連游戲玩家用的RTX 4090都不讓賣(mài)了。

在這種情況下,一些媒體注意到了中國(guó)的一項(xiàng)成果。2023年10月25日,清華大學(xué)戴瓊海院士與喬飛副研究員團(tuán)隊(duì)在《自然》雜志發(fā)表論文《All-analog photoelectronic chip for high-speed vision tasks》,介紹了光電融合芯片ACCEL。一些新聞標(biāo)題說(shuō)這款芯片“算力是商用GPU的3000多倍”,內(nèi)容中具體是“在包括 ImageNet 等智能視覺(jué)任務(wù)實(shí)測(cè)中,相同準(zhǔn)確率下,比現(xiàn)有高性能 GPU 算力提升三千倍,能效提升四百萬(wàn)倍,具備超高算力、超低功耗的特點(diǎn)”。

這是真的嗎?這種光電融合芯片,能否在行業(yè)中應(yīng)用推廣,幫助中國(guó)突破GPU封鎖?

其實(shí)這很大程度是誤讀,因?yàn)檫@些媒體把ACCEL和商用GPU的“算力”拿來(lái)對(duì)比的方法有問(wèn)題。簡(jiǎn)而言之,是把前者的瞬間表現(xiàn)和后者的持續(xù)表現(xiàn)混為一談了。但要深入理解問(wèn)題在哪里,我們就要先來(lái)了解下光電融合芯片以及商用GPU芯片的基本知識(shí),包括它們的架構(gòu)與性能特點(diǎn)。

光電融合芯片ACCEL,顧名思義,它是一個(gè)芯片,但融合了“光”和“電”的特性。芯片有邏輯芯片和存儲(chǔ)芯片兩大類(lèi)(還有一類(lèi)半導(dǎo)體器件是功率放大器,有時(shí)也稱(chēng)為功率芯片),高性能GPU就是將計(jì)算能力強(qiáng)大的邏輯芯片與多達(dá)幾十G容量的先進(jìn)存儲(chǔ)芯片封裝在一起。

從性質(zhì)上看,ACCEL是邏輯芯片,功能是計(jì)算,而且計(jì)算功能限定為圖像的模式識(shí)別。目前它還是非常專(zhuān)門(mén)的邏輯計(jì)算芯片,沒(méi)有通用計(jì)算功能。

世界第一款GPU:英偉達(dá)GeForce 256

GPU能不能做通用計(jì)算呢?以前不行,現(xiàn)在可以。GPU芯片最初功能專(zhuān)一,其前身叫“顯卡”,處理的是2D屏幕上像素點(diǎn)的顯示問(wèn)題。1999年英偉達(dá)推出第一款GPU芯片GeForce 256時(shí),正式提出了GPU的命名Graphics Processing Unit,能夠處理許多本來(lái)由CPU負(fù)責(zé)的T&L(Transforming & Lighting,幾何光影轉(zhuǎn)換)算法,已經(jīng)有了通用處理器的一些特性。此時(shí)市場(chǎng)上CPU的價(jià)值還是更被看重,用CPU來(lái)處理圖像顯示問(wèn)題(如用CPU實(shí)現(xiàn)的“軟光柵”算法)浪費(fèi)了,就用GPU來(lái)打輔助,用其多核來(lái)并行處理天生適合并行的圖像顯示問(wèn)題。

英特爾當(dāng)時(shí)認(rèn)為,GPU是輔助的,沒(méi)太大價(jià)值,于是干脆和自家的CPU集成在一起賣(mài),叫集成顯卡。一般人都不知道自己的機(jī)器里有集成顯卡,專(zhuān)門(mén)買(mǎi)獨(dú)立顯卡的人才比較懂GPU。這可能是英特爾犯的最大錯(cuò)誤,到2022年才開(kāi)始推出獨(dú)立顯卡,和英偉達(dá)、AMD搶生意。

到2003年,GPGPU(General Purpose computing on GPU,GPU通用計(jì)算)的概念被提出來(lái)。之后隨著GPU能力越來(lái)越強(qiáng),到2010年之后,高性能GPU已經(jīng)能完成非常多不同種類(lèi)的計(jì)算任務(wù),如圖形3D、神經(jīng)網(wǎng)絡(luò)、科學(xué)計(jì)算、云計(jì)算、數(shù)據(jù)中心、AIGC、大語(yǔ)言模型等等,非常通用了。到這個(gè)階段,高性能GPU就顯得比CPU有價(jià)值多了,價(jià)格也拉開(kāi)了幾十倍的差距??梢赃@樣說(shuō),CPU能計(jì)算的GPU都能算,而GPU能快速完成的許多計(jì)算任務(wù),CPU理論上能完成但實(shí)在太慢,等于不行。所以現(xiàn)在的情況是,簡(jiǎn)單的任務(wù)才會(huì)讓便宜的CPU干,CPU成打輔助的了。GPU霸主英偉達(dá)的市值,2024年2月12日達(dá)到了老牌CPU霸主英特爾的9.7倍,這就是GPU強(qiáng)大計(jì)算能力的直接體現(xiàn)。

下面我們來(lái)看,光電融合芯片ACCEL是如何做計(jì)算的。它融合了“光”與“電”,其中“光”是指“光計(jì)算”(photonic computing),“電”就是電子。跟電子相比,光子有很突出的性能,例如沒(méi)有靜止質(zhì)量,光子之間沒(méi)有相互作用力,互相幾乎不干擾,不受電磁場(chǎng)干擾等等。在通信業(yè)中,光纖就比銅纜的帶寬大得多,能耗還小,光通信是成熟應(yīng)用了。電子的優(yōu)點(diǎn)是,天生適合二進(jìn)制邏輯計(jì)算,因?yàn)橛邪雽?dǎo)體的神奇功能,通過(guò)電壓變化,器件就能在導(dǎo)通和阻斷之間靈敏變化,正好代表了0和1。

《三體》電視劇中的人列計(jì)算機(jī)

稍有計(jì)算機(jī)知識(shí)的人,會(huì)明白基于電流、電壓的半導(dǎo)體做計(jì)算是比較自然的,二進(jìn)制邏輯不難懂。就如劉慈欣《三體》中描述的,用幾個(gè)士兵就能演示與、或、非基本邏輯計(jì)算,進(jìn)而實(shí)現(xiàn)加減乘除等數(shù)學(xué)運(yùn)算,直到整個(gè)計(jì)算機(jī)系統(tǒng)。

集成光路示意圖

光子其實(shí)也是可以搞計(jì)算的,而且是零能耗。上圖是一個(gè)與“集成電路”類(lèi)似的“集成光路”,激光器產(chǎn)生的光在“光路”的各種元器件里傳輸處理,效果相當(dāng)于計(jì)算。你可能會(huì)想到我的朋友袁嵐峰經(jīng)常介紹的、中國(guó)科學(xué)技術(shù)大學(xué)研發(fā)的“九章”系列量子計(jì)算機(jī),但它和這里說(shuō)的光計(jì)算并不是一回事。九章也是用光來(lái)做計(jì)算,但它是利用單個(gè)光子的量子特性,如疊加和糾纏。而一般說(shuō)的光計(jì)算,用的還是大量光子的干涉、衍射等經(jīng)典特性。

例如一束光通過(guò)透鏡衍射,就可以理解為執(zhí)行傅里葉變換積分。整個(gè)過(guò)程是“無(wú)源”的,能耗為零,無(wú)須如集成電路那樣外加電源。再一個(gè)例子是馬赫-曾德?tīng)柛缮鎯x(MZI,Mach–Zehnder Interferometer),可以直接構(gòu)造出一個(gè)2 × 2的矩陣,也是無(wú)源的。級(jí)聯(lián)的MZI可以進(jìn)行矩陣乘法,非常有特性,讓MZI成為光計(jì)算的基礎(chǔ)單元,ACCEL論文里也提到了MZI。這就有些專(zhuān)業(yè)了,不象電子世界的二進(jìn)制邏輯那樣容易理解。

下面我們來(lái)稍微詳細(xì)地介紹一下馬赫-曾德?tīng)柛缮鎯x。你可能聽(tīng)說(shuō)過(guò)恩斯特·馬赫,他是非常著名的物理學(xué)家和哲學(xué)家,愛(ài)因斯坦多次表示受到過(guò)他的很大啟發(fā)。但馬赫-曾德?tīng)柛缮鎯x中的馬赫并不是恩斯特·馬赫,而是他的兒子路德維?!ゑR赫。路德維·曾德?tīng)?891年提出這種干涉儀的構(gòu)想,路德維?!ゑR赫1892年改進(jìn),兩人提出的這種干涉儀構(gòu)型很靈活,被廣泛應(yīng)用于量子力學(xué)的基礎(chǔ)研究。MZI后來(lái)應(yīng)用到了光通信,近來(lái)又用到了光計(jì)算,在光學(xué)測(cè)量中也很常用。

馬赫-曾德?tīng)柛缮鎯x示意圖

如圖,馬赫-曾德?tīng)柛缮鎯x的圖像效果是,檢測(cè)盒(test cell)中的火焰物體,在右方顯示為白色火焰(相長(zhǎng)干涉,Constructive Interference),上方顯示為黑色火焰(相消干涉,Destructive Interference)。核心裝置是左下和右上兩個(gè)“半鍍鏡”,鍍膜的厚度很小,正好讓45度角入射的一半光線(xiàn)透射過(guò)去,一半反射走。光源經(jīng)過(guò)透鏡形成準(zhǔn)直光束,被左下的半鍍鏡分成兩道,往上走的叫“樣品光束”,平走的叫“參考光束”,半鍍鏡等于起到了“分光器”(beamsplitter,BS)的作用。參考光束的光路上有一個(gè)補(bǔ)償盒(compensating cell),是和檢驗(yàn)盒(test cell)一樣的玻璃盒,消除兩條光路除樣品外的額外影響。精心調(diào)整,讓兩條光路距離一樣。兩個(gè)光束分別被左上和右下的鍍銀鏡全反射,又在上方的半鍍鏡遇上,一半樣品光束透射過(guò)它,和被它反射的一半?yún)⒖脊馐黄鸬竭_(dá)右邊探測(cè)器(屏幕),發(fā)生相長(zhǎng)干涉;一半樣品光束被它反射,和透射過(guò)它的一半?yún)⒖脊馐黄鸬竭_(dá)上面的探測(cè)器,發(fā)生相消干涉。

你可能想問(wèn),既然兩條光路距離相同,為什么不是兩邊都是相長(zhǎng)干涉,而是一邊相長(zhǎng),一邊相消?關(guān)鍵原理是,反射有可能改變相位,也可能不變。最終兩束光相位相反就是相消干涉,相位相同就是相長(zhǎng)干涉。仔細(xì)觀(guān)察,左下的半鍍鏡是鍍膜(細(xì)黑條)在上、玻璃(粗灰條)在下;右上的半鍍鏡是玻璃在上、鍍膜在下。

反射相位改變與否的規(guī)律是由菲涅爾方程決定的:在低折射率介質(zhì)里傳的波動(dòng),進(jìn)入高折射率的介質(zhì),波動(dòng)相位會(huì)變。也就是從低到高反射,相位會(huì)變,但從高到低反射,相位不變。樣品光束在左下半鍍鏡反射走,是從空氣到鍍膜,空氣折射率低于鍍膜,會(huì)改變一次相位(參考光束被右上半鍍鏡反射類(lèi)似)。而樣品光束在右上半鍍鏡反射走,是從玻璃到鍍膜,玻璃折射率高于鍍膜,不改變相位。

透射是不改變相位的。我們看樣品光束和參考光束經(jīng)過(guò)的反射,就會(huì)發(fā)現(xiàn),在右邊屏幕發(fā)生干涉時(shí),兩束光的相位改變次數(shù)是一樣的(全反射鏡也算一次,各改變了兩次),相位相同,相長(zhǎng)干涉。而在上邊屏幕發(fā)生干涉時(shí),樣品光束的相位改變多一次(樣品光束兩次,參考光束一次),兩者反相了,相消干涉。

那MZI是怎么用到光計(jì)算里面的?馬赫與曾德?tīng)柺翘岢鰧?shí)驗(yàn)構(gòu)想,具體的干涉實(shí)現(xiàn)多種多樣,只要是光束經(jīng)過(guò)分光器,經(jīng)不同路徑又發(fā)生干涉,就符合大意,通稱(chēng)為MZI。光的加法很簡(jiǎn)單,就是兩束光通過(guò)波導(dǎo)管傳輸,在波導(dǎo)管相遇的地方,信號(hào)被方向耦合器加在一起。而光的乘法就是MZI的干涉效應(yīng)實(shí)現(xiàn)的,當(dāng)然器件比原始的馬赫-曾德?tīng)柛缮鎯x要小得多了,有很多改進(jìn)。

單個(gè)經(jīng)典的MZI:兩個(gè)分光器BS,兩個(gè)反射鏡M,三個(gè)移相器

如圖,一個(gè)經(jīng)典的MZI和原始的馬赫-曾德?tīng)柛缮鎯x大致類(lèi)似,兩個(gè)分光器就等于半鍍鏡,兩個(gè)反射鏡也一樣。但是,多了三個(gè)移相器,入射的光也變成兩個(gè)了,E1和E2兩束光都是一半透射一半90度角反射,透射的和另一束光反射的正好同方向。E1和E2就代表一個(gè)2 × 1的矩陣E = [E1, E2],這個(gè)矩陣經(jīng)過(guò)MZI乘以2 × 2的矩陣U,就變成另一個(gè)2 × 1的矩陣E’ = [E’1,E’2],公式是E’ = E * U。移相器的三個(gè)角度值α/β/θ,代表相乘的2 × 2的矩陣U,U的數(shù)值是可變的(也就是可編程的),但必須是酉矩陣(unitary matrix,也叫幺正矩陣),所以矩陣的4個(gè)值用3個(gè)參數(shù)可代表。酉矩陣的定義是,它和另外一個(gè)矩陣乘,能得出對(duì)角線(xiàn)全是1的單位矩陣,具有一定的對(duì)稱(chēng)性。具體的數(shù)學(xué)公式很復(fù)雜,但大致原理并不難明白。光線(xiàn)在MZI里根據(jù)相位干涉,兩條光路相當(dāng)于兩個(gè)并行的數(shù)值計(jì)算。這個(gè)MZI就代表了2 × 2的矩陣U。

這個(gè)架構(gòu)是可擴(kuò)展的,例如將4×1的輸入矩陣E分解,用6個(gè)MZI,就能得到E與4×4的矩陣U相乘的結(jié)果E’。規(guī)律是,n×n的酉矩陣U,可以用n(n-1)/2個(gè)MZI來(lái)表示。上圖U的上角標(biāo)4代表它的維度是4。

利用矩陣的奇異值分解法(Singular Value Decomposition, SVD),級(jí)聯(lián)MZI可以實(shí)現(xiàn)任意矩陣的乘法。SVD是說(shuō),任意m × n的矩陣M,可以表示為三個(gè)矩陣的乘積,M = UEV,其中U是n × n的酉矩陣,V是m × m的酉矩陣,E是m × n的對(duì)角矩陣(對(duì)角線(xiàn)以外全是0)。這三個(gè)矩陣都可以用級(jí)聯(lián)MZI來(lái)表示,對(duì)角矩陣更簡(jiǎn)單,用n個(gè)MZI光衰減器就可以。注意一般的n × n方陣也需要用SVD分解,因?yàn)榭赡懿皇怯暇仃嚒?/p>

圖為級(jí)聯(lián)MZI構(gòu)成的光學(xué)干涉單元(Optical Interference Unit,OIU)。這些設(shè)計(jì)已經(jīng)有實(shí)際的光子芯片應(yīng)用了。MZI概念上是光子芯片的元器件,有時(shí)需要非常多的數(shù)量,如64 × 64的矩陣乘法就需要8128個(gè)MZI。

近來(lái)非常流行的神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí),最常用的基礎(chǔ)運(yùn)算是卷積。而透鏡衍射的傅立葉變換就可以模擬卷積運(yùn)算,因此用光學(xué)元器件模擬深度神經(jīng)網(wǎng)絡(luò)是可行的,這就是光學(xué)神經(jīng)網(wǎng)絡(luò)(Optical Neural Network, ONN)。圖為一個(gè)手寫(xiě)數(shù)字識(shí)別ONN,一個(gè)空間光調(diào)制器(SLM,Spatial Light Modulator)就相當(dāng)于深度神經(jīng)網(wǎng)絡(luò)中的一層。有一個(gè)實(shí)體的掩碼板(weight mask),等于是權(quán)重系數(shù),放在光路中作為系數(shù)調(diào)制卷積過(guò)程。L7作逆的傅立葉變換,把光線(xiàn)聚焦到CCD中的某個(gè)區(qū)域。運(yùn)行起來(lái)效果是,輸入端光線(xiàn)代表的數(shù)字,經(jīng)過(guò)透鏡與掩碼組,最后總能神奇地聚焦到CCD的對(duì)應(yīng)區(qū)域。這個(gè)過(guò)程的數(shù)學(xué)解釋?zhuān)褪巧疃壬窠?jīng)網(wǎng)絡(luò)。

光計(jì)算有低能耗的特性,但是因?yàn)橛?jì)算機(jī)系統(tǒng)沒(méi)法解讀光信號(hào),實(shí)際應(yīng)用時(shí)還需要光電轉(zhuǎn)換以及最終輸出處理環(huán)節(jié)。

傳統(tǒng)的光計(jì)算應(yīng)用過(guò)程,摘自ACCEL論文

圖為傳統(tǒng)的圖像識(shí)別光計(jì)算應(yīng)用過(guò)程,小車(chē)的圖像是光信號(hào)輸入,經(jīng)過(guò)MZI光計(jì)算、D2NN(就是一種ONN,衍射深度神經(jīng)網(wǎng)絡(luò))處理,形成了特征明顯的光信號(hào)。但這些光信號(hào)要經(jīng)過(guò)很多photodiode(光電二極管)轉(zhuǎn)成電信號(hào)(基于光電效應(yīng)),再?gòu)碾娦盘?hào)經(jīng)ADC(模數(shù)轉(zhuǎn)換)變成數(shù)字信號(hào)進(jìn)入計(jì)算機(jī)內(nèi)存,還要跑一個(gè)小型數(shù)字神經(jīng)網(wǎng)絡(luò)全連接層(在光信號(hào)那里做不方便),最終形成識(shí)別結(jié)果,認(rèn)出是小汽車(chē)。

這個(gè)傳統(tǒng)光計(jì)算應(yīng)用架構(gòu)缺點(diǎn)很大。說(shuō)是光子零能耗,但是大規(guī)模的光電轉(zhuǎn)換、ADC轉(zhuǎn)換非常耗能。光線(xiàn)在眾多級(jí)聯(lián)MZI、透鏡掩碼組里傳播、干涉、衍射,這個(gè)過(guò)程并不是很靠譜,也就是“非線(xiàn)性”,元器件一多就不靈了。而且也不抗干擾,光線(xiàn)稍有點(diǎn)環(huán)境擾動(dòng)結(jié)果就不對(duì)。相比之下,基于電子的芯片就很靠譜,信號(hào)在上百億個(gè)晶體管之間傳送都不會(huì)錯(cuò)。所以傳統(tǒng)的光計(jì)算多年來(lái)都只能“展示潛力”,如果是關(guān)心前沿技術(shù)進(jìn)展的朋友,會(huì)經(jīng)常在文章中看到它,但從來(lái)不見(jiàn)它大規(guī)模應(yīng)用。這就是因?yàn)樗鼞?yīng)用不方便,從光信號(hào)到數(shù)字信號(hào)過(guò)程生硬,光電融合得不好。

了解了這些背景,才能明白清華團(tuán)隊(duì)ACCEL的進(jìn)步。它巧妙地融合了光子與電子各自的特性?xún)?yōu)勢(shì),所以叫光電融合芯片。ACCEL的全稱(chēng)是All-analog Chip Combining Electronic and Light computing,全模擬電光計(jì)算融合芯片,這里的重點(diǎn)除了光電融合,就是All-analog,全程模擬信號(hào),省去了耗能的ADC環(huán)節(jié)。

ACCEL的架構(gòu)

ACCEL的圖像識(shí)別過(guò)程,分為OAC(Optical Analog Computing,光模擬計(jì)算)和EAC(Electronic Analog Computing,電模擬計(jì)算)兩個(gè)環(huán)節(jié)。小車(chē)的光學(xué)圖像包含極多光學(xué)信號(hào),經(jīng)過(guò)光學(xué)元器件陣列,不斷進(jìn)行“特征提取”,相當(dāng)于用ONN實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)運(yùn)算,在OAC里生成了小量光學(xué)信號(hào)(但包含了關(guān)鍵信息)。OAC輸出的光信號(hào),經(jīng)過(guò)少量光電二極管陣列轉(zhuǎn)換(只有32 × 32個(gè)),變成電信號(hào)(仍然是模擬信號(hào))。這些電信號(hào)在EAC里的SRAM陣列里傳輸,用巧妙的辦法模擬了一個(gè)神經(jīng)網(wǎng)絡(luò)全連接層。最后電信號(hào)形成了簡(jiǎn)單的脈沖序列輸出,完成識(shí)別過(guò)程。

可以看出,OAC借鑒了ONN的技術(shù),主要的創(chuàng)新是在EAC環(huán)節(jié)。SRAM是static random-access memory,存儲(chǔ)一個(gè)比特。EAC模擬實(shí)現(xiàn)了一個(gè)二值化的神經(jīng)網(wǎng)絡(luò)全連接層。全連接是模式識(shí)別的深度神經(jīng)網(wǎng)絡(luò)最后一層常用辦法,EAC里是1024 × N的全連接(1024就是32 × 32個(gè)從OAC轉(zhuǎn)換來(lái)的電信號(hào),N是需要識(shí)別的物體種類(lèi)數(shù),ACCEL里N小于等于16)。

二值化神經(jīng)網(wǎng)絡(luò)連接是說(shuō),權(quán)重系數(shù)只有兩種狀態(tài)(正和負(fù))。每個(gè)從光信號(hào)轉(zhuǎn)來(lái)的電信號(hào),會(huì)根據(jù)其連接的SRAM存儲(chǔ)的比特值是0還是1,決定連到V+還是V-這兩條線(xiàn)之一。兩條線(xiàn)各有一些電信號(hào)連過(guò)來(lái),先各自根據(jù)基爾霍夫定律合并出電流值,再在輸出Node互相比較電流大小,得出一個(gè)電壓差脈沖輸出。如果有N個(gè)物體需要分辨,從OAC轉(zhuǎn)換來(lái)的電信號(hào)會(huì)同時(shí)接到N組SRAM里,組合出N個(gè)脈沖輸出。最后脈沖在Comparator里比較,哪個(gè)大就代表識(shí)別結(jié)果是它。神經(jīng)網(wǎng)絡(luò)訓(xùn)練,就是根據(jù)正確輸出結(jié)果,告訴EAC,對(duì)應(yīng)Node輸出的脈沖大了、小了,反向去修改SRAM里的0和1值。訓(xùn)練好了,1024×N個(gè)SRAM里就存儲(chǔ)了一套權(quán)重系數(shù),可以用于模式識(shí)別了。

整個(gè)過(guò)程很巧妙,EAC的輸出直接就識(shí)別好了,不需要再在傳統(tǒng)計(jì)算機(jī)里計(jì)算處理。所以,ACCEL芯片實(shí)現(xiàn)了完整的圖像識(shí)別計(jì)算過(guò)程。它里面有光學(xué)信號(hào)、電信號(hào),在一級(jí)級(jí)傳輸,有個(gè)計(jì)算過(guò)程,但完全沒(méi)有傳統(tǒng)芯片的數(shù)字邏輯過(guò)程。所以叫做All-analog,全程模擬信號(hào),不需要ADC轉(zhuǎn)換,這就非常厲害了,能效極高。

ACCEL的優(yōu)點(diǎn)有多種。在OAC環(huán)節(jié),光學(xué)圖像輸入包含海量的細(xì)節(jié),用透鏡和掩碼組不斷變換,最后就形成32×32的小規(guī)模輸出。這個(gè)特征提取過(guò)程非常重要,它是光電融合芯片能快速計(jì)算的主要功臣,是一個(gè)光學(xué)過(guò)程,光速、低時(shí)延、低能耗。這個(gè)過(guò)程如果用傳統(tǒng)芯片來(lái)做,需要非常多的晶體管,而且并行不容易,需要GPU加速。光學(xué)過(guò)程天然就是并行的,而且實(shí)現(xiàn)簡(jiǎn)單。

但OAC的輸出是“抽象”的,誰(shuí)也看不懂。如果導(dǎo)入傳統(tǒng)計(jì)算機(jī)系統(tǒng)里解讀,就又引入了傳統(tǒng)內(nèi)存與邏輯芯片的弱點(diǎn),還不如只用傳統(tǒng)芯片處理簡(jiǎn)單。ACCEL用EAC去解讀OAC的輸出,用SRAM陣列很簡(jiǎn)單地就進(jìn)行了電流計(jì)算,最終的電流脈沖結(jié)果能和識(shí)別結(jié)果很好地對(duì)應(yīng)上,這是一個(gè)讓人叫絕的辦法。

架構(gòu)設(shè)計(jì)不錯(cuò),還要評(píng)估實(shí)際效果。清華研究團(tuán)隊(duì)對(duì)MNIST、ImageNet數(shù)據(jù)集的幾個(gè)典型學(xué)術(shù)研究型案例,評(píng)估了運(yùn)行效果。這些案例包括,10個(gè)手寫(xiě)數(shù)字的識(shí)別、3類(lèi)圖形樣例的識(shí)別,還有一個(gè)視頻行為的分類(lèi)識(shí)別。

要注意,ACCEL芯片架構(gòu)評(píng)估其實(shí)不需要實(shí)際造出芯片,可以先模擬評(píng)估。就如同芯片設(shè)計(jì)時(shí),可以選用工具軟件模擬運(yùn)行看效果,看設(shè)計(jì)是否成功。ACCEL的OAC和EAC的信號(hào)處理行為,都可以用計(jì)算機(jī)模擬出來(lái)。模擬運(yùn)行、訓(xùn)練神經(jīng)網(wǎng)絡(luò),驗(yàn)證架構(gòu)可行性、模式識(shí)別效果讓人滿(mǎn)意,再去實(shí)際造出ACCEL。

這種模擬就能發(fā)現(xiàn)傳統(tǒng)光計(jì)算芯片的弱點(diǎn)了。如ImageNet中256×256的圖像分類(lèi)識(shí)別,對(duì)傳統(tǒng)光計(jì)算架構(gòu)很困難,因?yàn)橐藕芏郙ZI,需要的ONN層數(shù)較多,會(huì)導(dǎo)致光信號(hào)在光路上經(jīng)過(guò)的環(huán)節(jié)過(guò)多,非線(xiàn)性特性發(fā)作,性能亂套。ACCEL對(duì)這類(lèi)較大的圖像還能應(yīng)付過(guò)來(lái),說(shuō)明架構(gòu)上比傳統(tǒng)光計(jì)算要強(qiáng)很多。

但是需要指出,ACCEL模擬評(píng)估的方法,就說(shuō)明它仍然是一個(gè)研究型的芯片。這些評(píng)估的任務(wù)是相對(duì)簡(jiǎn)單的,如對(duì)ImageNet中的三類(lèi)物體進(jìn)行分辯,栗色馬、救護(hù)車(chē)、衣柜。ACCEL的識(shí)別率是80.7%,這聽(tīng)起來(lái)不高,但仍然高于它的比較對(duì)象、一個(gè)傳統(tǒng)數(shù)字神經(jīng)網(wǎng)絡(luò)的75.3%。為什么呢?因?yàn)檫@個(gè)比較對(duì)象只是一個(gè)三層的簡(jiǎn)單網(wǎng)絡(luò)。顯然這意味著雙方離真正應(yīng)用都很遠(yuǎn)。現(xiàn)在真正實(shí)用的深度學(xué)習(xí)模式識(shí)別的識(shí)別率很高,能夠處理的圖片較大,應(yīng)用的神經(jīng)網(wǎng)絡(luò)層數(shù)非常多,跟這種“玩具模型”不是同一層面的。

之后,清華團(tuán)隊(duì)實(shí)際造出了ACCEL芯片,進(jìn)行了評(píng)估。但由于其研究型目的,用的工藝是相對(duì)簡(jiǎn)單的。傳統(tǒng)光計(jì)算芯片的問(wèn)題是,在制造過(guò)程中,會(huì)出現(xiàn)光路對(duì)齊、信號(hào)噪聲之類(lèi)的缺陷,大大影響實(shí)際表現(xiàn)。ACCEL由于芯片架構(gòu)簡(jiǎn)單,所以在這方面表現(xiàn)好一些,制造引入的缺陷少,信號(hào)噪聲、低光照條件下表現(xiàn)不錯(cuò),也是一個(gè)優(yōu)點(diǎn)。ACCEL就算造的不完美,因?yàn)闄?quán)重是根據(jù)實(shí)際樣例訓(xùn)練的,能在訓(xùn)練中糾正一些。

ACCEL制造出來(lái)后,在一些測(cè)試樣例中,識(shí)別率表現(xiàn)和模擬評(píng)估一致,有的數(shù)值稍差一點(diǎn)但可以理解。到這一步,才說(shuō)明芯片設(shè)計(jì)和制造算是成功的,實(shí)現(xiàn)了意圖,之后對(duì)于優(yōu)越性能的說(shuō)明才有意義。

總體來(lái)說(shuō),ACCEL識(shí)別率方面的性能指標(biāo)還不錯(cuò)。一個(gè)特別大的優(yōu)點(diǎn)是,在低照度的情況下,傳統(tǒng)辦法全部會(huì)失敗,但ACCEL還能很好地處理。這是因?yàn)槠渌軜?gòu)都需要ADC模數(shù)轉(zhuǎn)換,信號(hào)強(qiáng)度不夠就不行了。而ACCEL在低照度情況下,模擬信號(hào)仍然能正常地自然運(yùn)算,直到整個(gè)計(jì)算完成。

現(xiàn)在我們回到文章開(kāi)頭的問(wèn)題,新聞里說(shuō)的“算力是商用GPU的3000多倍”,這話(huà)究竟對(duì)不對(duì)呢?其實(shí)完全誤導(dǎo),它只能理解為一種形容,并不是實(shí)際的算力表現(xiàn)。

首先來(lái)理解一下,這個(gè)說(shuō)法是怎么來(lái)的。ACCEL的優(yōu)點(diǎn)是,它就是一個(gè)光信號(hào)、電信號(hào)傳播的過(guò)程,不象傳統(tǒng)芯片那樣計(jì)算速度受限于“時(shí)鐘周期”??梢韵胂?,傳統(tǒng)芯片的計(jì)算過(guò)程是一步步的,象僵直的機(jī)器人一樣一個(gè)節(jié)拍動(dòng)一下。而ACCEL是一個(gè)流水一樣的自然過(guò)程,幾乎沒(méi)有卡頓,雖然有時(shí)鐘周期,但不太受限制,只有SRAM存儲(chǔ)更新之類(lèi)的明顯需要節(jié)拍的地方會(huì)用到。

實(shí)測(cè)下來(lái),ACCEL用2-9個(gè)納秒就能完成一幅圖像的處理。1納秒是十億分之一秒,是100萬(wàn)之一毫秒。通常人們用CPU處理一幅圖像識(shí)別是幾十到幾百毫秒,用GPU加速也要幾個(gè)毫秒。也就是說(shuō),ACCEL的處理時(shí)間只有一般芯片的百萬(wàn)分之一以下。

因此,可以認(rèn)為ACCEL的時(shí)鐘頻率是500M,也就是一個(gè)時(shí)鐘周期2納秒。等于是說(shuō),幾個(gè)時(shí)鐘周期,ACCEL就把計(jì)算任務(wù)辦完了。而在傳統(tǒng)計(jì)算機(jī)里,無(wú)論是CPU還是GPU,這類(lèi)計(jì)算任務(wù)都要很多個(gè)時(shí)鐘周期的,做個(gè)乘法就要好多步。并行是說(shuō),海量數(shù)據(jù)可以組成向量加速,但對(duì)某個(gè)數(shù)據(jù)處理的時(shí)鐘周期是省不了的。

所以清華論文報(bào)告說(shuō),在進(jìn)行ImageNet三類(lèi)物體分類(lèi)時(shí),ACCEL的計(jì)算速度約相當(dāng)于4550個(gè)TOPS。TOPS是Tera Operations Per Second,代表每秒1萬(wàn)億次操作。這個(gè)計(jì)算速度確實(shí)能有商用GPU的3000多倍,因?yàn)镚PU每秒能有1萬(wàn)億次操作已經(jīng)很好了。所謂“算力是商用GPU的3000多倍”,就是這么來(lái)的。但這個(gè)說(shuō)法,究竟是哪里不對(duì)呢?

真正的問(wèn)題,在于持續(xù)計(jì)算。ACCEL確實(shí)能在幾納秒之內(nèi)處理一幅圖像的光信號(hào),但它能不能持續(xù)運(yùn)算,真的用一秒時(shí)間,完成4550TOPS的運(yùn)算量?這就不行了,因?yàn)闇?zhǔn)備任務(wù)是需要時(shí)間的。例如以它的計(jì)算速度,一秒能處理1億個(gè)圖片,但把這么多圖片的光信號(hào)在一秒內(nèi)發(fā)送給它,是不可能的。實(shí)際準(zhǔn)備一個(gè)圖片需要的時(shí)間就不短,真正的瓶頸是在這兒。

ACCEL芯片測(cè)試準(zhǔn)備

ACCEL芯片是一個(gè)光電芯片,它的輸入是光信號(hào),要把它運(yùn)行起來(lái),需要準(zhǔn)備好光信號(hào)輸入,而這是個(gè)相當(dāng)復(fù)雜的任務(wù)。按論文描述,清華團(tuán)隊(duì)要搭起光學(xué)鏡片組,才能將識(shí)別目標(biāo)的光信號(hào)輸入給ACCEL進(jìn)行處理,換下一個(gè)識(shí)別目標(biāo)要不少操作。而GPU、CPU在計(jì)算機(jī)系統(tǒng)中應(yīng)用多年了,處理輸入已經(jīng)很成熟了,所以能將海量數(shù)據(jù)組織起來(lái),象流水線(xiàn)一樣送到運(yùn)算核心不停處理。高性能GPU的核心技術(shù)之一,就是海量數(shù)據(jù)輸入管理,要用到上百G的高速存儲(chǔ)器,多級(jí)緩存。

所以,論總的算力ACCEL并不大,它只是對(duì)整個(gè)流程中的一步處理得極快,而這一步快的代價(jià)是另一些步驟慢。一個(gè)比喻是,一個(gè)士兵面前正好有一個(gè)敵人,他開(kāi)槍只用1秒鐘就消滅了一個(gè)敵人。但這不代表他可以一小時(shí)消滅3600個(gè)敵人,更不是說(shuō)他可以一個(gè)人頂3000多個(gè)人。如果有人說(shuō)他的“戰(zhàn)力”有3000多個(gè)士兵這么多,這就錯(cuò)得離譜。再一個(gè)比喻是,一張弓,可以在1秒內(nèi)讓箭飛出100米,速度很快。但是,不能說(shuō)它的“運(yùn)送能力”是1小時(shí)360公里,因?yàn)闆](méi)法持續(xù)飛。如果射一箭,人走過(guò)去再射一箭,這樣接力,一小時(shí)跑不了多遠(yuǎn)。

如果是了解可控核聚變的朋友,可能會(huì)想到另一個(gè)更有技術(shù)含量的比喻??煽睾司圩冇袃蓷l途徑,磁約束和慣性約束。我們平時(shí)經(jīng)??吹叫侣劦腅AST、ITER等托卡馬克屬于磁約束,而激光打靶屬于慣性約束。2022年12月,美國(guó)國(guó)家點(diǎn)火裝置(NIF)實(shí)現(xiàn)了一個(gè)里程碑,能量輸出超過(guò)了輸入。然而,這意味著慣性約束聚變能用來(lái)發(fā)電了嗎?其實(shí)還差得遠(yuǎn)。原因有很多,其中之一就是激光打靶是不連續(xù)的,聚變反應(yīng)時(shí)間只有幾納秒,而準(zhǔn)備一次打靶卻要一天(美國(guó)NIF激光聚變“點(diǎn)火”成功,聚變電站還遠(yuǎn)嗎?|DrSHI觀(guān)科技)。這比“一曝十寒”還夸張,是“納秒曝一天寒”,所以總的效率非常低,離實(shí)用還很遠(yuǎn)。

而相比之下,GPU的算力就是真實(shí)的,它確實(shí)能連續(xù)一直跑,跑到芯片發(fā)燙,人人都能聽(tīng)見(jiàn)風(fēng)扇的聲音。GPU應(yīng)用時(shí),會(huì)有配套的計(jì)算機(jī)系統(tǒng)、應(yīng)用程序、CUDA驅(qū)動(dòng)支持,有時(shí)需要上百G的HBM3快速存儲(chǔ),這都是為了連續(xù)處理海量數(shù)據(jù)。

另一個(gè)指標(biāo)是與能耗相關(guān)的。ACCEL幾乎不用能量,只有激光、SRAM用一點(diǎn),能耗指標(biāo)非常優(yōu)秀。論文中給出的能耗指標(biāo)是74800TOPS每瓦,這就是新聞中提到的“能效提升四百萬(wàn)倍”。

同樣的道理,這種說(shuō)法也是很誤導(dǎo)的。這是因?yàn)锳CCEL處理整個(gè)流程中的一步幾乎不用能量,而不是ACCEL真用了與CPU或GPU相當(dāng)?shù)哪芰?,完成了四百多萬(wàn)倍的運(yùn)算。一個(gè)比喻是,一只螞蟻幾乎不用能量就能爬1米,能耗效率比人要高多了。但是人可以把10斤重的箱子提起來(lái),螞蟻卻不可能做到。

最后,我們來(lái)總結(jié)一下。清華ACCEL芯片融合了光電的特性,是非常巧妙的芯片架構(gòu),技術(shù)指標(biāo)優(yōu)秀,將光計(jì)算的潛力進(jìn)一步展示。所以這個(gè)工作發(fā)表在《自然》上,引發(fā)了相當(dāng)?shù)霓Z動(dòng)。它的快速計(jì)算、低功耗的特性,正如論文中提到的,在可穿戴設(shè)備、自動(dòng)駕駛、工業(yè)檢測(cè)等領(lǐng)域很有應(yīng)用前景。應(yīng)該說(shuō)清華團(tuán)隊(duì)的總結(jié)是清醒的,在這些領(lǐng)域視頻圖像信號(hào)能低功耗快速處理,會(huì)是不錯(cuò)的應(yīng)用。

但是,一些媒體將指標(biāo)引申到與GPU對(duì)比,認(rèn)為ACCEL的算力與功耗指標(biāo)比GPU好得多,甚至暗示ACCEL可能解決先進(jìn)GPU問(wèn)題,這就完全誤讀了。一方面的問(wèn)題是,GPU有“通用計(jì)算”能力,能完成很多復(fù)雜任務(wù),而ACCEL只用于視頻與圖像模式識(shí)別,應(yīng)用領(lǐng)域較窄。但根本的問(wèn)題是,指標(biāo)對(duì)比方法錯(cuò)誤。這種比法對(duì)ACCEL來(lái)說(shuō)是只看到優(yōu)勢(shì),沒(méi)看到代價(jià),對(duì)GPU來(lái)說(shuō)是忽視了GPU連續(xù)計(jì)算的能力。

更深層次的問(wèn)題是,媒體為什么經(jīng)常犯這種錯(cuò)誤呢?恐怕是因?yàn)樗麄兛傁敫銈€(gè)大新聞,而忽略了提高知識(shí)水平。

(責(zé)任編輯:?jiǎn)虌?TT0002)
關(guān)閉

黃光裕官宣進(jìn)軍汽車(chē)行業(yè) 探索汽車(chē)市場(chǎng)新可能

黃光裕官宣進(jìn)軍汽車(chē)行業(yè)2025-01-03 12:19:49

廣西車(chē)?yán)遄?0元2盒是真的

廣西車(chē)?yán)遄?0元2盒是真的2025-01-03 12:19:23

四川人大常委會(huì)原副主任甘道明逝世 享年78歲

四川人大常委會(huì)原副主任甘道明逝世2025-01-03 12:18:00

廣西車(chē)?yán)遄?0元2盒是真的

廣西車(chē)?yán)遄?0元2盒是真的2025-01-03 12:19:23

A股突變!兩大板塊,掀漲停潮 預(yù)制菜與新零售領(lǐng)漲

A股突變,兩大板塊,掀漲停潮2025-01-03 12:13:36

荷蘭天然氣價(jià)格升至逾1年高位 供應(yīng)短缺推高成本

荷蘭天然氣價(jià)格升至逾1年高位2025-01-03 11:14:00

特斯拉2024年全球交付超178.9萬(wàn)輛 創(chuàng)歷史新高

特斯拉2024年全球交付超178,9萬(wàn)輛2025-01-03 11:02:10

女子舉報(bào)國(guó)企丈夫包養(yǎng)情人 細(xì)節(jié)曝光 涉事單位正調(diào)查中

女子舉報(bào)國(guó)企丈夫包養(yǎng)情人細(xì)節(jié)曝光2025-01-03 12:16:24

42歲輔警去世生前協(xié)助偵破1000余起刑案 忠誠(chéng)履職守護(hù)平安

42歲輔警去世生前協(xié)助偵破1000余起刑案2025-01-03 12:15:41

打開(kāi)2025年的中國(guó)時(shí)刻 萬(wàn)象更新奮勇前行

打開(kāi)2025年的中國(guó)時(shí)刻2025-01-03 12:17:41

瑞士網(wǎng)紅“貓女”去世 整形名媛終年84歲

瑞士網(wǎng)紅貓女去世2025-01-03 12:13:56

韓總統(tǒng)官邸你推我擠一片混亂!

韓總統(tǒng)官邸你推我擠一片混亂2025-01-03 11:31:10

潘展樂(lè)被美媒評(píng)為世界第一 巴黎奧運(yùn)創(chuàng)紀(jì)錄奪魁

潘展樂(lè)被美媒評(píng)為世界第一2025-01-03 12:07:49

向老人潑水涉事學(xué)校被曝拖欠170萬(wàn) 食堂糾紛升級(jí)

向老人潑水涉事學(xué)校被曝拖欠170萬(wàn)2025-01-03 12:10:05

逮捕尹錫悅這一早上發(fā)生了什么 警衛(wèi)沖突引關(guān)注

逮捕尹錫悅這一早上發(fā)生了什么2025-01-03 11:21:51

批評(píng)特朗普的前議員切尼被授總統(tǒng)勛章 表彰其將國(guó)家置于黨派之上

批評(píng)特朗普的前議員切尼被授總統(tǒng)勛章2025-01-03 11:23:21

工藝品店賣(mài)春聯(lián)后被判“違規(guī)”遭斷電?管理方:他聽(tīng)不懂好賴(lài)話(huà)

賣(mài)春聯(lián)遭斷電還被指聽(tīng)不懂好賴(lài)話(huà)2025-01-03 12:07:21

村民買(mǎi)柴油被罰3萬(wàn)元罰款已退還 法律與民生碰撞引熱議

村民買(mǎi)柴油被罰3萬(wàn)元罰款已退還2025-01-03 12:05:23

黃光裕官宣進(jìn)軍汽車(chē)行業(yè) 探索汽車(chē)市場(chǎng)新可能

黃光裕官宣進(jìn)軍汽車(chē)行業(yè)2025-01-03 12:19:49

安倍晉三明明是日本人,可為啥在他死后,墓碑上卻刻著中國(guó)漢字 文化淵源深厚

安倍晉三明明是日本人墓碑上卻刻著中國(guó)漢字2025-01-03 11:11:08

美國(guó)國(guó)內(nèi)恐怖主義亮起紅警 新奧爾良血色開(kāi)局

美國(guó)國(guó)內(nèi)恐怖主義亮起紅警2025-01-03 11:23:40

整容成貓女瑞士社交名媛去世 傳奇一生終落幕

整容成貓女瑞士社交名媛去世2025-01-03 12:09:37

科普:瀏覽黃色網(wǎng)站違法嗎?為何成人網(wǎng)站屢禁不止

科普:瀏覽黃色網(wǎng)站違法嗎?為何成人網(wǎng)站屢禁不止2025-01-03 11:28:56

臺(tái)北跨年轉(zhuǎn)播央視晚會(huì)承包商回應(yīng)!

臺(tái)北跨年轉(zhuǎn)播央視晚會(huì)承包商回應(yīng)2025-01-03 11:13:32

澤連斯基稱(chēng)支持在烏克蘭部署歐洲部隊(duì),強(qiáng)調(diào)與北約接軌的重要性

澤連斯基稱(chēng)支持在烏克蘭部署歐洲部隊(duì)2025-01-03 11:34:57

元旦實(shí)現(xiàn)了上四休三!網(wǎng)友直呼:好爽

元旦實(shí)現(xiàn)了上四休三2025-01-03 11:26:32

四川人大常委會(huì)原副主任甘道明逝世 享年78歲

四川人大常委會(huì)原副主任甘道明逝世2025-01-03 12:18:00

相關(guān)新聞