清華光電融合芯片算力是GPU的3000多倍？媒體搞出的大新聞

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-12-02 14:18:14 風(fēng)云之聲

近年來(lái)，人工智能突破引發(fā)了高性能GPU需求暴增。GPU生產(chǎn)商英偉達(dá)2023年市值增長(zhǎng)239.2%，2024年又漲了45.9%，截至2月12日市值達(dá)到1.78萬(wàn)億美元。GPU已經(jīng)成為全球高科技業(yè)界最炙手可熱的商品之一，美國(guó)商務(wù)部還特別針對(duì)中國(guó)限制GPU性能，連游戲玩家用的RTX 4090都不讓賣(mài)了。

在這種情況下，一些媒體注意到了中國(guó)的一項(xiàng)成果。2023年10月25日，清華大學(xué)戴瓊海院士與喬飛副研究員團(tuán)隊(duì)在《自然》雜志發(fā)表論文《All-analog photoelectronic chip for high-speed vision tasks》，介紹了光電融合芯片ACCEL。一些新聞標(biāo)題說(shuō)這款芯片“算力是商用GPU的3000多倍”，內(nèi)容中具體是“在包括 ImageNet 等智能視覺(jué)任務(wù)實(shí)測(cè)中，相同準(zhǔn)確率下，比現(xiàn)有高性能 GPU 算力提升三千倍，能效提升四百萬(wàn)倍，具備超高算力、超低功耗的特點(diǎn)”。

這是真的嗎？這種光電融合芯片，能否在行業(yè)中應(yīng)用推廣，幫助中國(guó)突破GPU封鎖？

其實(shí)這很大程度是誤讀，因?yàn)檫@些媒體把ACCEL和商用GPU的“算力”拿來(lái)對(duì)比的方法有問(wèn)題。簡(jiǎn)而言之，是把前者的瞬間表現(xiàn)和后者的持續(xù)表現(xiàn)混為一談了。但要深入理解問(wèn)題在哪里，我們就要先來(lái)了解下光電融合芯片以及商用GPU芯片的基本知識(shí)，包括它們的架構(gòu)與性能特點(diǎn)。

光電融合芯片ACCEL，顧名思義，它是一個(gè)芯片，但融合了“光”和“電”的特性。芯片有邏輯芯片和存儲(chǔ)芯片兩大類(lèi)（還有一類(lèi)半導(dǎo)體器件是功率放大器，有時(shí)也稱(chēng)為功率芯片），高性能GPU就是將計(jì)算能力強(qiáng)大的邏輯芯片與多達(dá)幾十G容量的先進(jìn)存儲(chǔ)芯片封裝在一起。

從性質(zhì)上看，ACCEL是邏輯芯片，功能是計(jì)算，而且計(jì)算功能限定為圖像的模式識(shí)別。目前它還是非常專(zhuān)門(mén)的邏輯計(jì)算芯片，沒(méi)有通用計(jì)算功能。

世界第一款GPU：英偉達(dá)GeForce 256

GPU能不能做通用計(jì)算呢？以前不行，現(xiàn)在可以。GPU芯片最初功能專(zhuān)一，其前身叫“顯卡”，處理的是2D屏幕上像素點(diǎn)的顯示問(wèn)題。1999年英偉達(dá)推出第一款GPU芯片GeForce 256時(shí)，正式提出了GPU的命名Graphics Processing Unit，能夠處理許多本來(lái)由CPU負(fù)責(zé)的T&L（Transforming & Lighting，幾何光影轉(zhuǎn)換）算法，已經(jīng)有了通用處理器的一些特性。此時(shí)市場(chǎng)上CPU的價(jià)值還是更被看重，用CPU來(lái)處理圖像顯示問(wèn)題（如用CPU實(shí)現(xiàn)的“軟光柵”算法）浪費(fèi)了，就用GPU來(lái)打輔助，用其多核來(lái)并行處理天生適合并行的圖像顯示問(wèn)題。

英特爾當(dāng)時(shí)認(rèn)為，GPU是輔助的，沒(méi)太大價(jià)值，于是干脆和自家的CPU集成在一起賣(mài)，叫集成顯卡。一般人都不知道自己的機(jī)器里有集成顯卡，專(zhuān)門(mén)買(mǎi)獨(dú)立顯卡的人才比較懂GPU。這可能是英特爾犯的最大錯(cuò)誤，到2022年才開(kāi)始推出獨(dú)立顯卡，和英偉達(dá)、AMD搶生意。

到2003年，GPGPU（General Purpose computing on GPU，GPU通用計(jì)算）的概念被提出來(lái)。之后隨著GPU能力越來(lái)越強(qiáng)，到2010年之后，高性能GPU已經(jīng)能完成非常多不同種類(lèi)的計(jì)算任務(wù)，如圖形3D、神經(jīng)網(wǎng)絡(luò)、科學(xué)計(jì)算、云計(jì)算、數(shù)據(jù)中心、AIGC、大語(yǔ)言模型等等，非常通用了。到這個(gè)階段，高性能GPU就顯得比CPU有價(jià)值多了，價(jià)格也拉開(kāi)了幾十倍的差距?？梢赃@樣說(shuō)，CPU能計(jì)算的GPU都能算，而GPU能快速完成的許多計(jì)算任務(wù)，CPU理論上能完成但實(shí)在太慢，等于不行。所以現(xiàn)在的情況是，簡(jiǎn)單的任務(wù)才會(huì)讓便宜的CPU干，CPU成打輔助的了。GPU霸主英偉達(dá)的市值，2024年2月12日達(dá)到了老牌CPU霸主英特爾的9.7倍，這就是GPU強(qiáng)大計(jì)算能力的直接體現(xiàn)。

下面我們來(lái)看，光電融合芯片ACCEL是如何做計(jì)算的。它融合了“光”與“電”，其中“光”是指“光計(jì)算”（photonic computing），“電”就是電子。跟電子相比，光子有很突出的性能，例如沒(méi)有靜止質(zhì)量，光子之間沒(méi)有相互作用力，互相幾乎不干擾，不受電磁場(chǎng)干擾等等。在通信業(yè)中，光纖就比銅纜的帶寬大得多，能耗還小，光通信是成熟應(yīng)用了。電子的優(yōu)點(diǎn)是，天生適合二進(jìn)制邏輯計(jì)算，因?yàn)橛邪雽?dǎo)體的神奇功能，通過(guò)電壓變化，器件就能在導(dǎo)通和阻斷之間靈敏變化，正好代表了0和1。

《三體》電視劇中的人列計(jì)算機(jī)

稍有計(jì)算機(jī)知識(shí)的人，會(huì)明白基于電流、電壓的半導(dǎo)體做計(jì)算是比較自然的，二進(jìn)制邏輯不難懂。就如劉慈欣《三體》中描述的，用幾個(gè)士兵就能演示與、或、非基本邏輯計(jì)算，進(jìn)而實(shí)現(xiàn)加減乘除等數(shù)學(xué)運(yùn)算，直到整個(gè)計(jì)算機(jī)系統(tǒng)。

集成光路示意圖

光子其實(shí)也是可以搞計(jì)算的，而且是零能耗。上圖是一個(gè)與“集成電路”類(lèi)似的“集成光路”，激光器產(chǎn)生的光在“光路”的各種元器件里傳輸處理，效果相當(dāng)于計(jì)算。你可能會(huì)想到我的朋友袁嵐峰經(jīng)常介紹的、中國(guó)科學(xué)技術(shù)大學(xué)研發(fā)的“九章”系列量子計(jì)算機(jī)，但它和這里說(shuō)的光計(jì)算并不是一回事。九章也是用光來(lái)做計(jì)算，但它是利用單個(gè)光子的量子特性，如疊加和糾纏。而一般說(shuō)的光計(jì)算，用的還是大量光子的干涉、衍射等經(jīng)典特性。

例如一束光通過(guò)透鏡衍射，就可以理解為執(zhí)行傅里葉變換積分。整個(gè)過(guò)程是“無(wú)源”的，能耗為零，無(wú)須如集成電路那樣外加電源。再一個(gè)例子是馬赫-曾德?tīng)柛缮鎯x（MZI，Mach–Zehnder Interferometer），可以直接構(gòu)造出一個(gè)2 × 2的矩陣，也是無(wú)源的。級(jí)聯(lián)的MZI可以進(jìn)行矩陣乘法，非常有特性，讓MZI成為光計(jì)算的基礎(chǔ)單元，ACCEL論文里也提到了MZI。這就有些專(zhuān)業(yè)了，不象電子世界的二進(jìn)制邏輯那樣容易理解。

下面我們來(lái)稍微詳細(xì)地介紹一下馬赫-曾德?tīng)柛缮鎯x。你可能聽(tīng)說(shuō)過(guò)恩斯特·馬赫，他是非常著名的物理學(xué)家和哲學(xué)家，愛(ài)因斯坦多次表示受到過(guò)他的很大啟發(fā)。但馬赫-曾德?tīng)柛缮鎯x中的馬赫并不是恩斯特·馬赫，而是他的兒子路德維?！ゑR赫。路德維·曾德?tīng)?891年提出這種干涉儀的構(gòu)想，路德維?！ゑR赫1892年改進(jìn)，兩人提出的這種干涉儀構(gòu)型很靈活，被廣泛應(yīng)用于量子力學(xué)的基礎(chǔ)研究。MZI后來(lái)應(yīng)用到了光通信，近來(lái)又用到了光計(jì)算，在光學(xué)測(cè)量中也很常用。

馬赫-曾德?tīng)柛缮鎯x示意圖

如圖，馬赫-曾德?tīng)柛缮鎯x的圖像效果是，檢測(cè)盒（test cell）中的火焰物體，在右方顯示為白色火焰（相長(zhǎng)干涉，Constructive Interference），上方顯示為黑色火焰（相消干涉，Destructive Interference）。核心裝置是左下和右上兩個(gè)“半鍍鏡”，鍍膜的厚度很小，正好讓45度角入射的一半光線(xiàn)透射過(guò)去，一半反射走。光源經(jīng)過(guò)透鏡形成準(zhǔn)直光束，被左下的半鍍鏡分成兩道，往上走的叫“樣品光束”，平走的叫“參考光束”，半鍍鏡等于起到了“分光器”（beamsplitter，BS）的作用。參考光束的光路上有一個(gè)補(bǔ)償盒（compensating cell），是和檢驗(yàn)盒（test cell）一樣的玻璃盒，消除兩條光路除樣品外的額外影響。精心調(diào)整，讓兩條光路距離一樣。兩個(gè)光束分別被左上和右下的鍍銀鏡全反射，又在上方的半鍍鏡遇上，一半樣品光束透射過(guò)它，和被它反射的一半?yún)⒖脊馐黄鸬竭_(dá)右邊探測(cè)器（屏幕），發(fā)生相長(zhǎng)干涉；一半樣品光束被它反射，和透射過(guò)它的一半?yún)⒖脊馐黄鸬竭_(dá)上面的探測(cè)器，發(fā)生相消干涉。

你可能想問(wèn)，既然兩條光路距離相同，為什么不是兩邊都是相長(zhǎng)干涉，而是一邊相長(zhǎng)，一邊相消？關(guān)鍵原理是，反射有可能改變相位，也可能不變。最終兩束光相位相反就是相消干涉，相位相同就是相長(zhǎng)干涉。仔細(xì)觀(guān)察，左下的半鍍鏡是鍍膜（細(xì)黑條）在上、玻璃（粗灰條）在下；右上的半鍍鏡是玻璃在上、鍍膜在下。

反射相位改變與否的規(guī)律是由菲涅爾方程決定的：在低折射率介質(zhì)里傳的波動(dòng)，進(jìn)入高折射率的介質(zhì)，波動(dòng)相位會(huì)變。也就是從低到高反射，相位會(huì)變，但從高到低反射，相位不變。樣品光束在左下半鍍鏡反射走，是從空氣到鍍膜，空氣折射率低于鍍膜，會(huì)改變一次相位（參考光束被右上半鍍鏡反射類(lèi)似）。而樣品光束在右上半鍍鏡反射走，是從玻璃到鍍膜，玻璃折射率高于鍍膜，不改變相位。

透射是不改變相位的。我們看樣品光束和參考光束經(jīng)過(guò)的反射，就會(huì)發(fā)現(xiàn)，在右邊屏幕發(fā)生干涉時(shí)，兩束光的相位改變次數(shù)是一樣的（全反射鏡也算一次，各改變了兩次），相位相同，相長(zhǎng)干涉。而在上邊屏幕發(fā)生干涉時(shí)，樣品光束的相位改變多一次（樣品光束兩次，參考光束一次），兩者反相了，相消干涉。

那MZI是怎么用到光計(jì)算里面的？馬赫與曾德?tīng)柺翘岢鰧?shí)驗(yàn)構(gòu)想，具體的干涉實(shí)現(xiàn)多種多樣，只要是光束經(jīng)過(guò)分光器，經(jīng)不同路徑又發(fā)生干涉，就符合大意，通稱(chēng)為MZI。光的加法很簡(jiǎn)單，就是兩束光通過(guò)波導(dǎo)管傳輸，在波導(dǎo)管相遇的地方，信號(hào)被方向耦合器加在一起。而光的乘法就是MZI的干涉效應(yīng)實(shí)現(xiàn)的，當(dāng)然器件比原始的馬赫-曾德?tīng)柛缮鎯x要小得多了，有很多改進(jìn)。

單個(gè)經(jīng)典的MZI：兩個(gè)分光器BS，兩個(gè)反射鏡M，三個(gè)移相器

如圖，一個(gè)經(jīng)典的MZI和原始的馬赫-曾德?tīng)柛缮鎯x大致類(lèi)似，兩個(gè)分光器就等于半鍍鏡，兩個(gè)反射鏡也一樣。但是，多了三個(gè)移相器，入射的光也變成兩個(gè)了，E1和E2兩束光都是一半透射一半90度角反射，透射的和另一束光反射的正好同方向。E1和E2就代表一個(gè)2 × 1的矩陣E = [E1, E2]，這個(gè)矩陣經(jīng)過(guò)MZI乘以2 × 2的矩陣U，就變成另一個(gè)2 × 1的矩陣E’ = [E’1,E’2]，公式是E’ = E * U。移相器的三個(gè)角度值α/β/θ，代表相乘的2 × 2的矩陣U，U的數(shù)值是可變的（也就是可編程的），但必須是酉矩陣（unitary matrix，也叫幺正矩陣），所以矩陣的4個(gè)值用3個(gè)參數(shù)可代表。酉矩陣的定義是，它和另外一個(gè)矩陣乘，能得出對(duì)角線(xiàn)全是1的單位矩陣，具有一定的對(duì)稱(chēng)性。具體的數(shù)學(xué)公式很復(fù)雜，但大致原理并不難明白。光線(xiàn)在MZI里根據(jù)相位干涉，兩條光路相當(dāng)于兩個(gè)并行的數(shù)值計(jì)算。這個(gè)MZI就代表了2 × 2的矩陣U。

這個(gè)架構(gòu)是可擴(kuò)展的，例如將4×1的輸入矩陣E分解，用6個(gè)MZI，就能得到E與4×4的矩陣U相乘的結(jié)果E’。規(guī)律是，n×n的酉矩陣U，可以用n(n-1)/2個(gè)MZI來(lái)表示。上圖U的上角標(biāo)4代表它的維度是4。

利用矩陣的奇異值分解法（Singular Value Decomposition, SVD），級(jí)聯(lián)MZI可以實(shí)現(xiàn)任意矩陣的乘法。SVD是說(shuō)，任意m × n的矩陣M，可以表示為三個(gè)矩陣的乘積，M = UEV，其中U是n × n的酉矩陣，V是m × m的酉矩陣，E是m × n的對(duì)角矩陣（對(duì)角線(xiàn)以外全是0）。這三個(gè)矩陣都可以用級(jí)聯(lián)MZI來(lái)表示，對(duì)角矩陣更簡(jiǎn)單，用n個(gè)MZI光衰減器就可以。注意一般的n × n方陣也需要用SVD分解，因?yàn)榭赡懿皇怯暇仃嚒?/p>

圖為級(jí)聯(lián)MZI構(gòu)成的光學(xué)干涉單元（Optical Interference Unit，OIU）。這些設(shè)計(jì)已經(jīng)有實(shí)際的光子芯片應(yīng)用了。MZI概念上是光子芯片的元器件，有時(shí)需要非常多的數(shù)量，如64 × 64的矩陣乘法就需要8128個(gè)MZI。

近來(lái)非常流行的神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)，最常用的基礎(chǔ)運(yùn)算是卷積。而透鏡衍射的傅立葉變換就可以模擬卷積運(yùn)算，因此用光學(xué)元器件模擬深度神經(jīng)網(wǎng)絡(luò)是可行的，這就是光學(xué)神經(jīng)網(wǎng)絡(luò)（Optical Neural Network, ONN）。圖為一個(gè)手寫(xiě)數(shù)字識(shí)別ONN，一個(gè)空間光調(diào)制器（SLM，Spatial Light Modulator）就相當(dāng)于深度神經(jīng)網(wǎng)絡(luò)中的一層。有一個(gè)實(shí)體的掩碼板（weight mask），等于是權(quán)重系數(shù)，放在光路中作為系數(shù)調(diào)制卷積過(guò)程。L7作逆的傅立葉變換，把光線(xiàn)聚焦到CCD中的某個(gè)區(qū)域。運(yùn)行起來(lái)效果是，輸入端光線(xiàn)代表的數(shù)字，經(jīng)過(guò)透鏡與掩碼組，最后總能神奇地聚焦到CCD的對(duì)應(yīng)區(qū)域。這個(gè)過(guò)程的數(shù)學(xué)解釋?zhuān)褪巧疃壬窠?jīng)網(wǎng)絡(luò)。

光計(jì)算有低能耗的特性，但是因?yàn)橛?jì)算機(jī)系統(tǒng)沒(méi)法解讀光信號(hào)，實(shí)際應(yīng)用時(shí)還需要光電轉(zhuǎn)換以及最終輸出處理環(huán)節(jié)。

傳統(tǒng)的光計(jì)算應(yīng)用過(guò)程，摘自ACCEL論文

圖為傳統(tǒng)的圖像識(shí)別光計(jì)算應(yīng)用過(guò)程，小車(chē)的圖像是光信號(hào)輸入，經(jīng)過(guò)MZI光計(jì)算、D2NN（就是一種ONN，衍射深度神經(jīng)網(wǎng)絡(luò)）處理，形成了特征明顯的光信號(hào)。但這些光信號(hào)要經(jīng)過(guò)很多photodiode（光電二極管）轉(zhuǎn)成電信號(hào)（基于光電效應(yīng)），再?gòu)碾娦盘?hào)經(jīng)ADC（模數(shù)轉(zhuǎn)換）變成數(shù)字信號(hào)進(jìn)入計(jì)算機(jī)內(nèi)存，還要跑一個(gè)小型數(shù)字神經(jīng)網(wǎng)絡(luò)全連接層（在光信號(hào)那里做不方便），最終形成識(shí)別結(jié)果，認(rèn)出是小汽車(chē)。

這個(gè)傳統(tǒng)光計(jì)算應(yīng)用架構(gòu)缺點(diǎn)很大。說(shuō)是光子零能耗，但是大規(guī)模的光電轉(zhuǎn)換、ADC轉(zhuǎn)換非常耗能。光線(xiàn)在眾多級(jí)聯(lián)MZI、透鏡掩碼組里傳播、干涉、衍射，這個(gè)過(guò)程并不是很靠譜，也就是“非線(xiàn)性”，元器件一多就不靈了。而且也不抗干擾，光線(xiàn)稍有點(diǎn)環(huán)境擾動(dòng)結(jié)果就不對(duì)。相比之下，基于電子的芯片就很靠譜，信號(hào)在上百億個(gè)晶體管之間傳送都不會(huì)錯(cuò)。所以傳統(tǒng)的光計(jì)算多年來(lái)都只能“展示潛力”，如果是關(guān)心前沿技術(shù)進(jìn)展的朋友，會(huì)經(jīng)常在文章中看到它，但從來(lái)不見(jiàn)它大規(guī)模應(yīng)用。這就是因?yàn)樗鼞?yīng)用不方便，從光信號(hào)到數(shù)字信號(hào)過(guò)程生硬，光電融合得不好。

了解了這些背景，才能明白清華團(tuán)隊(duì)ACCEL的進(jìn)步。它巧妙地融合了光子與電子各自的特性?xún)?yōu)勢(shì)，所以叫光電融合芯片。ACCEL的全稱(chēng)是All-analog Chip Combining Electronic and Light computing，全模擬電光計(jì)算融合芯片，這里的重點(diǎn)除了光電融合，就是All-analog，全程模擬信號(hào)，省去了耗能的ADC環(huán)節(jié)。

ACCEL的架構(gòu)

ACCEL的圖像識(shí)別過(guò)程，分為OAC（Optical Analog Computing，光模擬計(jì)算）和EAC（Electronic Analog Computing，電模擬計(jì)算）兩個(gè)環(huán)節(jié)。小車(chē)的光學(xué)圖像包含極多光學(xué)信號(hào)，經(jīng)過(guò)光學(xué)元器件陣列，不斷進(jìn)行“特征提取”，相當(dāng)于用ONN實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)運(yùn)算，在OAC里生成了小量光學(xué)信號(hào)（但包含了關(guān)鍵信息）。OAC輸出的光信號(hào)，經(jīng)過(guò)少量光電二極管陣列轉(zhuǎn)換（只有32 × 32個(gè)），變成電信號(hào)（仍然是模擬信號(hào)）。這些電信號(hào)在EAC里的SRAM陣列里傳輸，用巧妙的辦法模擬了一個(gè)神經(jīng)網(wǎng)絡(luò)全連接層。最后電信號(hào)形成了簡(jiǎn)單的脈沖序列輸出，完成識(shí)別過(guò)程。

可以看出，OAC借鑒了ONN的技術(shù)，主要的創(chuàng)新是在EAC環(huán)節(jié)。SRAM是static random-access memory，存儲(chǔ)一個(gè)比特。EAC模擬實(shí)現(xiàn)了一個(gè)二值化的神經(jīng)網(wǎng)絡(luò)全連接層。全連接是模式識(shí)別的深度神經(jīng)網(wǎng)絡(luò)最后一層常用辦法，EAC里是1024 × N的全連接（1024就是32 × 32個(gè)從OAC轉(zhuǎn)換來(lái)的電信號(hào)，N是需要識(shí)別的物體種類(lèi)數(shù)，ACCEL里N小于等于16）。

二值化神經(jīng)網(wǎng)絡(luò)連接是說(shuō)，權(quán)重系數(shù)只有兩種狀態(tài)（正和負(fù)）。每個(gè)從光信號(hào)轉(zhuǎn)來(lái)的電信號(hào)，會(huì)根據(jù)其連接的SRAM存儲(chǔ)的比特值是0還是1，決定連到V+還是V-這兩條線(xiàn)之一。兩條線(xiàn)各有一些電信號(hào)連過(guò)來(lái)，先各自根據(jù)基爾霍夫定律合并出電流值，再在輸出Node互相比較電流大小，得出一個(gè)電壓差脈沖輸出。如果有N個(gè)物體需要分辨，從OAC轉(zhuǎn)換來(lái)的電信號(hào)會(huì)同時(shí)接到N組SRAM里，組合出N個(gè)脈沖輸出。最后脈沖在Comparator里比較，哪個(gè)大就代表識(shí)別結(jié)果是它。神經(jīng)網(wǎng)絡(luò)訓(xùn)練，就是根據(jù)正確輸出結(jié)果，告訴EAC，對(duì)應(yīng)Node輸出的脈沖大了、小了，反向去修改SRAM里的0和1值。訓(xùn)練好了，1024×N個(gè)SRAM里就存儲(chǔ)了一套權(quán)重系數(shù)，可以用于模式識(shí)別了。

整個(gè)過(guò)程很巧妙，EAC的輸出直接就識(shí)別好了，不需要再在傳統(tǒng)計(jì)算機(jī)里計(jì)算處理。所以，ACCEL芯片實(shí)現(xiàn)了完整的圖像識(shí)別計(jì)算過(guò)程。它里面有光學(xué)信號(hào)、電信號(hào)，在一級(jí)級(jí)傳輸，有個(gè)計(jì)算過(guò)程，但完全沒(méi)有傳統(tǒng)芯片的數(shù)字邏輯過(guò)程。所以叫做All-analog，全程模擬信號(hào)，不需要ADC轉(zhuǎn)換，這就非常厲害了，能效極高。

ACCEL的優(yōu)點(diǎn)有多種。在OAC環(huán)節(jié)，光學(xué)圖像輸入包含海量的細(xì)節(jié)，用透鏡和掩碼組不斷變換，最后就形成32×32的小規(guī)模輸出。這個(gè)特征提取過(guò)程非常重要，它是光電融合芯片能快速計(jì)算的主要功臣，是一個(gè)光學(xué)過(guò)程，光速、低時(shí)延、低能耗。這個(gè)過(guò)程如果用傳統(tǒng)芯片來(lái)做，需要非常多的晶體管，而且并行不容易，需要GPU加速。光學(xué)過(guò)程天然就是并行的，而且實(shí)現(xiàn)簡(jiǎn)單。

但OAC的輸出是“抽象”的，誰(shuí)也看不懂。如果導(dǎo)入傳統(tǒng)計(jì)算機(jī)系統(tǒng)里解讀，就又引入了傳統(tǒng)內(nèi)存與邏輯芯片的弱點(diǎn)，還不如只用傳統(tǒng)芯片處理簡(jiǎn)單。ACCEL用EAC去解讀OAC的輸出，用SRAM陣列很簡(jiǎn)單地就進(jìn)行了電流計(jì)算，最終的電流脈沖結(jié)果能和識(shí)別結(jié)果很好地對(duì)應(yīng)上，這是一個(gè)讓人叫絕的辦法。

架構(gòu)設(shè)計(jì)不錯(cuò)，還要評(píng)估實(shí)際效果。清華研究團(tuán)隊(duì)對(duì)MNIST、ImageNet數(shù)據(jù)集的幾個(gè)典型學(xué)術(shù)研究型案例，評(píng)估了運(yùn)行效果。這些案例包括，10個(gè)手寫(xiě)數(shù)字的識(shí)別、3類(lèi)圖形樣例的識(shí)別，還有一個(gè)視頻行為的分類(lèi)識(shí)別。

要注意，ACCEL芯片架構(gòu)評(píng)估其實(shí)不需要實(shí)際造出芯片，可以先模擬評(píng)估。就如同芯片設(shè)計(jì)時(shí)，可以選用工具軟件模擬運(yùn)行看效果，看設(shè)計(jì)是否成功。ACCEL的OAC和EAC的信號(hào)處理行為，都可以用計(jì)算機(jī)模擬出來(lái)。模擬運(yùn)行、訓(xùn)練神經(jīng)網(wǎng)絡(luò)，驗(yàn)證架構(gòu)可行性、模式識(shí)別效果讓人滿(mǎn)意，再去實(shí)際造出ACCEL。

這種模擬就能發(fā)現(xiàn)傳統(tǒng)光計(jì)算芯片的弱點(diǎn)了。如ImageNet中256×256的圖像分類(lèi)識(shí)別，對(duì)傳統(tǒng)光計(jì)算架構(gòu)很困難，因?yàn)橐藕芏郙ZI，需要的ONN層數(shù)較多，會(huì)導(dǎo)致光信號(hào)在光路上經(jīng)過(guò)的環(huán)節(jié)過(guò)多，非線(xiàn)性特性發(fā)作，性能亂套。ACCEL對(duì)這類(lèi)較大的圖像還能應(yīng)付過(guò)來(lái)，說(shuō)明架構(gòu)上比傳統(tǒng)光計(jì)算要強(qiáng)很多。

但是需要指出，ACCEL模擬評(píng)估的方法，就說(shuō)明它仍然是一個(gè)研究型的芯片。這些評(píng)估的任務(wù)是相對(duì)簡(jiǎn)單的，如對(duì)ImageNet中的三類(lèi)物體進(jìn)行分辯，栗色馬、救護(hù)車(chē)、衣柜。ACCEL的識(shí)別率是80.7%，這聽(tīng)起來(lái)不高，但仍然高于它的比較對(duì)象、一個(gè)傳統(tǒng)數(shù)字神經(jīng)網(wǎng)絡(luò)的75.3%。為什么呢？因?yàn)檫@個(gè)比較對(duì)象只是一個(gè)三層的簡(jiǎn)單網(wǎng)絡(luò)。顯然這意味著雙方離真正應(yīng)用都很遠(yuǎn)。現(xiàn)在真正實(shí)用的深度學(xué)習(xí)模式識(shí)別的識(shí)別率很高，能夠處理的圖片較大，應(yīng)用的神經(jīng)網(wǎng)絡(luò)層數(shù)非常多，跟這種“玩具模型”不是同一層面的。

之后，清華團(tuán)隊(duì)實(shí)際造出了ACCEL芯片，進(jìn)行了評(píng)估。但由于其研究型目的，用的工藝是相對(duì)簡(jiǎn)單的。傳統(tǒng)光計(jì)算芯片的問(wèn)題是，在制造過(guò)程中，會(huì)出現(xiàn)光路對(duì)齊、信號(hào)噪聲之類(lèi)的缺陷，大大影響實(shí)際表現(xiàn)。ACCEL由于芯片架構(gòu)簡(jiǎn)單，所以在這方面表現(xiàn)好一些，制造引入的缺陷少，信號(hào)噪聲、低光照條件下表現(xiàn)不錯(cuò)，也是一個(gè)優(yōu)點(diǎn)。ACCEL就算造的不完美，因?yàn)闄?quán)重是根據(jù)實(shí)際樣例訓(xùn)練的，能在訓(xùn)練中糾正一些。

ACCEL制造出來(lái)后，在一些測(cè)試樣例中，識(shí)別率表現(xiàn)和模擬評(píng)估一致，有的數(shù)值稍差一點(diǎn)但可以理解。到這一步，才說(shuō)明芯片設(shè)計(jì)和制造算是成功的，實(shí)現(xiàn)了意圖，之后對(duì)于優(yōu)越性能的說(shuō)明才有意義。

總體來(lái)說(shuō)，ACCEL識(shí)別率方面的性能指標(biāo)還不錯(cuò)。一個(gè)特別大的優(yōu)點(diǎn)是，在低照度的情況下，傳統(tǒng)辦法全部會(huì)失敗，但ACCEL還能很好地處理。這是因?yàn)槠渌軜?gòu)都需要ADC模數(shù)轉(zhuǎn)換，信號(hào)強(qiáng)度不夠就不行了。而ACCEL在低照度情況下，模擬信號(hào)仍然能正常地自然運(yùn)算，直到整個(gè)計(jì)算完成。

現(xiàn)在我們回到文章開(kāi)頭的問(wèn)題，新聞里說(shuō)的“算力是商用GPU的3000多倍”，這話(huà)究竟對(duì)不對(duì)呢？其實(shí)完全誤導(dǎo)，它只能理解為一種形容，并不是實(shí)際的算力表現(xiàn)。

首先來(lái)理解一下，這個(gè)說(shuō)法是怎么來(lái)的。ACCEL的優(yōu)點(diǎn)是，它就是一個(gè)光信號(hào)、電信號(hào)傳播的過(guò)程，不象傳統(tǒng)芯片那樣計(jì)算速度受限于“時(shí)鐘周期”?？梢韵胂?，傳統(tǒng)芯片的計(jì)算過(guò)程是一步步的，象僵直的機(jī)器人一樣一個(gè)節(jié)拍動(dòng)一下。而ACCEL是一個(gè)流水一樣的自然過(guò)程，幾乎沒(méi)有卡頓，雖然有時(shí)鐘周期，但不太受限制，只有SRAM存儲(chǔ)更新之類(lèi)的明顯需要節(jié)拍的地方會(huì)用到。

實(shí)測(cè)下來(lái)，ACCEL用2-9個(gè)納秒就能完成一幅圖像的處理。1納秒是十億分之一秒，是100萬(wàn)之一毫秒。通常人們用CPU處理一幅圖像識(shí)別是幾十到幾百毫秒，用GPU加速也要幾個(gè)毫秒。也就是說(shuō)，ACCEL的處理時(shí)間只有一般芯片的百萬(wàn)分之一以下。

因此，可以認(rèn)為ACCEL的時(shí)鐘頻率是500M，也就是一個(gè)時(shí)鐘周期2納秒。等于是說(shuō)，幾個(gè)時(shí)鐘周期，ACCEL就把計(jì)算任務(wù)辦完了。而在傳統(tǒng)計(jì)算機(jī)里，無(wú)論是CPU還是GPU，這類(lèi)計(jì)算任務(wù)都要很多個(gè)時(shí)鐘周期的，做個(gè)乘法就要好多步。并行是說(shuō)，海量數(shù)據(jù)可以組成向量加速，但對(duì)某個(gè)數(shù)據(jù)處理的時(shí)鐘周期是省不了的。

所以清華論文報(bào)告說(shuō)，在進(jìn)行ImageNet三類(lèi)物體分類(lèi)時(shí)，ACCEL的計(jì)算速度約相當(dāng)于4550個(gè)TOPS。TOPS是Tera Operations Per Second，代表每秒1萬(wàn)億次操作。這個(gè)計(jì)算速度確實(shí)能有商用GPU的3000多倍，因?yàn)镚PU每秒能有1萬(wàn)億次操作已經(jīng)很好了。所謂“算力是商用GPU的3000多倍”，就是這么來(lái)的。但這個(gè)說(shuō)法，究竟是哪里不對(duì)呢？

真正的問(wèn)題，在于持續(xù)計(jì)算。ACCEL確實(shí)能在幾納秒之內(nèi)處理一幅圖像的光信號(hào)，但它能不能持續(xù)運(yùn)算，真的用一秒時(shí)間，完成4550TOPS的運(yùn)算量？這就不行了，因?yàn)闇?zhǔn)備任務(wù)是需要時(shí)間的。例如以它的計(jì)算速度，一秒能處理1億個(gè)圖片，但把這么多圖片的光信號(hào)在一秒內(nèi)發(fā)送給它，是不可能的。實(shí)際準(zhǔn)備一個(gè)圖片需要的時(shí)間就不短，真正的瓶頸是在這兒。

ACCEL芯片測(cè)試準(zhǔn)備

ACCEL芯片是一個(gè)光電芯片，它的輸入是光信號(hào)，要把它運(yùn)行起來(lái)，需要準(zhǔn)備好光信號(hào)輸入，而這是個(gè)相當(dāng)復(fù)雜的任務(wù)。按論文描述，清華團(tuán)隊(duì)要搭起光學(xué)鏡片組，才能將識(shí)別目標(biāo)的光信號(hào)輸入給ACCEL進(jìn)行處理，換下一個(gè)識(shí)別目標(biāo)要不少操作。而GPU、CPU在計(jì)算機(jī)系統(tǒng)中應(yīng)用多年了，處理輸入已經(jīng)很成熟了，所以能將海量數(shù)據(jù)組織起來(lái)，象流水線(xiàn)一樣送到運(yùn)算核心不停處理。高性能GPU的核心技術(shù)之一，就是海量數(shù)據(jù)輸入管理，要用到上百G的高速存儲(chǔ)器，多級(jí)緩存。

所以，論總的算力ACCEL并不大，它只是對(duì)整個(gè)流程中的一步處理得極快，而這一步快的代價(jià)是另一些步驟慢。一個(gè)比喻是，一個(gè)士兵面前正好有一個(gè)敵人，他開(kāi)槍只用1秒鐘就消滅了一個(gè)敵人。但這不代表他可以一小時(shí)消滅3600個(gè)敵人，更不是說(shuō)他可以一個(gè)人頂3000多個(gè)人。如果有人說(shuō)他的“戰(zhàn)力”有3000多個(gè)士兵這么多，這就錯(cuò)得離譜。再一個(gè)比喻是，一張弓，可以在1秒內(nèi)讓箭飛出100米，速度很快。但是，不能說(shuō)它的“運(yùn)送能力”是1小時(shí)360公里，因?yàn)闆](méi)法持續(xù)飛。如果射一箭，人走過(guò)去再射一箭，這樣接力，一小時(shí)跑不了多遠(yuǎn)。

如果是了解可控核聚變的朋友，可能會(huì)想到另一個(gè)更有技術(shù)含量的比喻?？煽睾司圩冇袃蓷l途徑，磁約束和慣性約束。我們平時(shí)經(jīng)?？吹叫侣劦腅AST、ITER等托卡馬克屬于磁約束，而激光打靶屬于慣性約束。2022年12月，美國(guó)國(guó)家點(diǎn)火裝置（NIF）實(shí)現(xiàn)了一個(gè)里程碑，能量輸出超過(guò)了輸入。然而，這意味著慣性約束聚變能用來(lái)發(fā)電了嗎？其實(shí)還差得遠(yuǎn)。原因有很多，其中之一就是激光打靶是不連續(xù)的，聚變反應(yīng)時(shí)間只有幾納秒，而準(zhǔn)備一次打靶卻要一天（美國(guó)NIF激光聚變“點(diǎn)火”成功，聚變電站還遠(yuǎn)嗎？｜DrSHI觀(guān)科技）。這比“一曝十寒”還夸張，是“納秒曝一天寒”，所以總的效率非常低，離實(shí)用還很遠(yuǎn)。

而相比之下，GPU的算力就是真實(shí)的，它確實(shí)能連續(xù)一直跑，跑到芯片發(fā)燙，人人都能聽(tīng)見(jiàn)風(fēng)扇的聲音。GPU應(yīng)用時(shí)，會(huì)有配套的計(jì)算機(jī)系統(tǒng)、應(yīng)用程序、CUDA驅(qū)動(dòng)支持，有時(shí)需要上百G的HBM3快速存儲(chǔ)，這都是為了連續(xù)處理海量數(shù)據(jù)。

另一個(gè)指標(biāo)是與能耗相關(guān)的。ACCEL幾乎不用能量，只有激光、SRAM用一點(diǎn)，能耗指標(biāo)非常優(yōu)秀。論文中給出的能耗指標(biāo)是74800TOPS每瓦，這就是新聞中提到的“能效提升四百萬(wàn)倍”。

同樣的道理，這種說(shuō)法也是很誤導(dǎo)的。這是因?yàn)锳CCEL處理整個(gè)流程中的一步幾乎不用能量，而不是ACCEL真用了與CPU或GPU相當(dāng)?shù)哪芰?，完成了四百多萬(wàn)倍的運(yùn)算。一個(gè)比喻是，一只螞蟻幾乎不用能量就能爬1米，能耗效率比人要高多了。但是人可以把10斤重的箱子提起來(lái)，螞蟻卻不可能做到。

最后，我們來(lái)總結(jié)一下。清華ACCEL芯片融合了光電的特性，是非常巧妙的芯片架構(gòu)，技術(shù)指標(biāo)優(yōu)秀，將光計(jì)算的潛力進(jìn)一步展示。所以這個(gè)工作發(fā)表在《自然》上，引發(fā)了相當(dāng)?shù)霓Z動(dòng)。它的快速計(jì)算、低功耗的特性，正如論文中提到的，在可穿戴設(shè)備、自動(dòng)駕駛、工業(yè)檢測(cè)等領(lǐng)域很有應(yīng)用前景。應(yīng)該說(shuō)清華團(tuán)隊(duì)的總結(jié)是清醒的，在這些領(lǐng)域視頻圖像信號(hào)能低功耗快速處理，會(huì)是不錯(cuò)的應(yīng)用。

但是，一些媒體將指標(biāo)引申到與GPU對(duì)比，認(rèn)為ACCEL的算力與功耗指標(biāo)比GPU好得多，甚至暗示ACCEL可能解決先進(jìn)GPU問(wèn)題，這就完全誤讀了。一方面的問(wèn)題是，GPU有“通用計(jì)算”能力，能完成很多復(fù)雜任務(wù)，而ACCEL只用于視頻與圖像模式識(shí)別，應(yīng)用領(lǐng)域較窄。但根本的問(wèn)題是，指標(biāo)對(duì)比方法錯(cuò)誤。這種比法對(duì)ACCEL來(lái)說(shuō)是只看到優(yōu)勢(shì)，沒(méi)看到代價(jià)，對(duì)GPU來(lái)說(shuō)是忽視了GPU連續(xù)計(jì)算的能力。

更深層次的問(wèn)題是，媒體為什么經(jīng)常犯這種錯(cuò)誤呢？恐怕是因?yàn)樗麄兛傁敫銈€(gè)大新聞，而忽略了提高知識(shí)水平。

(責(zé)任編輯：?jiǎn)虌?TT0002)

關(guān)閉

清華光電融合芯片算力是GPU的3000多倍？媒體搞出的大新聞

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

清華光電融合芯片算力是GPU的3000多倍？媒體搞出的大新聞