近日,北京大學(xué)人工智能研究院孫仲研究員團(tuán)隊與集成電路學(xué)院研究團(tuán)隊合作,成功研發(fā)了一種基于阻變存儲器的高精度、可擴(kuò)展模擬矩陣計算芯片。這款芯片在解決大規(guī)模MIMO信號檢測等關(guān)鍵科學(xué)問題時,計算吞吐量和能效比當(dāng)前頂級數(shù)字處理器(GPU)高出百倍至千倍。相關(guān)研究成果發(fā)表在10月13日的《自然·電子學(xué)》期刊上。
對于大多數(shù)習(xí)慣于數(shù)字計算機(jī)(0和1)的公眾來說,“模擬計算”可能既古老又新奇。孫仲用生動的比喻解釋了這一概念:目前所有芯片都采用數(shù)字計算,數(shù)據(jù)需要先轉(zhuǎn)換成0和1的符號串。例如,數(shù)字“十”需轉(zhuǎn)譯為“1010”。而在模擬計算中,無需這層轉(zhuǎn)譯,可以直接使用連續(xù)的物理量如電壓或電流來表示數(shù)學(xué)上的數(shù)字。比如,可以用十伏或十毫伏的電壓直接表示數(shù)學(xué)上的“十”。
模擬計算機(jī)曾在上世紀(jì)30-60年代廣泛應(yīng)用,但隨著計算任務(wù)復(fù)雜度增加,其精度瓶頸逐漸顯現(xiàn),最終被數(shù)字計算取代。此次研究的核心正是要解決模擬計算“算不準(zhǔn)”的問題。
當(dāng)前市面上主流的CPU和GPU都是數(shù)字芯片,采用馮諾依曼結(jié)構(gòu),將計算和存儲功能分開。而基于阻變存儲器的模擬計算取消了將數(shù)據(jù)轉(zhuǎn)化為二進(jìn)制數(shù)字流的過程,同時不必進(jìn)行過程性數(shù)據(jù)存儲,從而將數(shù)據(jù)計算與存儲合為一體,實現(xiàn)算力解放。
與其他“存算一體”方案相比,孫仲團(tuán)隊專注于更具挑戰(zhàn)性的矩陣方程求解(AI二階訓(xùn)練的核心)。矩陣求逆操作要求極高精度,時間復(fù)雜度達(dá)到立方級。模擬計算憑借物理規(guī)律直接運(yùn)算的方式,具有低功耗、低延遲、高能效、高并行的優(yōu)勢。只要能夠不斷降低計算誤差,提升計算精度,將為傳統(tǒng)GPU的算力帶來顯著突破。
實驗結(jié)果顯示,該團(tuán)隊成功實現(xiàn)了16×16矩陣的24比特定點數(shù)精度求逆,矩陣方程求解經(jīng)過10次迭代后,相對誤差可低至10??量級。在求解32×32矩陣求逆問題時,其算力已超越高端GPU的單核性能;當(dāng)問題規(guī)模擴(kuò)大至128×128時,計算吞吐量更是達(dá)到了頂級數(shù)字處理器的1000倍以上。
關(guān)于應(yīng)用前景,孫仲認(rèn)為模擬計算在未來AI領(lǐng)域?qū)⒆鳛閺?qiáng)大的補(bǔ)充,最有可能快速落地的場景是計算智能領(lǐng)域,如機(jī)器人和人工智能模型的訓(xùn)練。談及與現(xiàn)有計算架構(gòu)的關(guān)系,孫仲強(qiáng)調(diào)未來將是互補(bǔ)共存的局面:CPU作為通用“總指揮”因其成熟與經(jīng)濟(jì)性難以被淘汰,GPU則專注于加速矩陣乘法計算。而模擬計算芯片旨在更高效地處理AI等領(lǐng)域最耗能的矩陣逆運(yùn)算,是對現(xiàn)有算力體系的重要補(bǔ)充。