加速計(jì)算帶來(lái)的結(jié)果確實(shí)非凡,但其實(shí)現(xiàn)過(guò)程并不容易。為什么它能節(jié)省這么多錢,但人們卻沒(méi)有更早地采用這種技術(shù)呢?原因就在于它的實(shí)施難度太大。
沒(méi)有現(xiàn)成的軟件可以簡(jiǎn)單地通過(guò)加速編譯器運(yùn)行,然后應(yīng)用程序就能瞬間提速100倍。這既不符合邏輯也不現(xiàn)實(shí)。如果這么容易,那么CPU廠商早就這樣做了。
事實(shí)上,要實(shí)現(xiàn)加速,軟件必須進(jìn)行全面重寫。這是整個(gè)過(guò)程中最具挑戰(zhàn)性的部分。軟件需要被重新設(shè)計(jì)、重新編碼,以便將原本在CPU上運(yùn)行的算法轉(zhuǎn)化為可以在加速器上并行運(yùn)行的格式。
這項(xiàng)計(jì)算機(jī)科學(xué)研究雖然困難,但我們?cè)谶^(guò)去的20年里已經(jīng)取得了顯著的進(jìn)展。例如,我們推出了廣受歡迎的cuDNN深度學(xué)習(xí)庫(kù),它專門處理神經(jīng)網(wǎng)絡(luò)加速。我們還為人工智能物理模擬提供了一個(gè)庫(kù),適用于流體動(dòng)力學(xué)等需要遵守物理定律的應(yīng)用。另外,我們還有一個(gè)名為Aerial的新庫(kù),它利用CUDA加速5G無(wú)線電技術(shù),使我們能夠像軟件定義互聯(lián)網(wǎng)網(wǎng)絡(luò)一樣,用軟件定義和加速電信網(wǎng)絡(luò)。

這些加速能力不僅提升了性能,還幫助我們將整個(gè)電信行業(yè)轉(zhuǎn)化為一種與云計(jì)算類似的計(jì)算平臺(tái)。此外,Coolitho計(jì)算光刻平臺(tái)也是一個(gè)很好的例子,它極大地提升了芯片制造過(guò)程中計(jì)算最密集的部分——掩模制作的效率。臺(tái)積電等公司已經(jīng)開始使用Coolitho進(jìn)行生產(chǎn),不僅顯著節(jié)省了能源,而且大幅降低了成本。他們的目標(biāo)是通過(guò)加速技術(shù)棧,為算法的更進(jìn)一步發(fā)展和制造更深更窄的晶體管所需的龐大計(jì)算能力做好準(zhǔn)備。
Pair of Bricks是我們引以為傲的基因測(cè)序庫(kù),它擁有世界領(lǐng)先的基因測(cè)序吞吐量。而Co OPT則是一個(gè)令人矚目的組合優(yōu)化庫(kù),能夠解決路線規(guī)劃、優(yōu)化行程、旅行社問(wèn)題等復(fù)雜難題。人們普遍認(rèn)為,這些問(wèn)題需要量子計(jì)算機(jī)才能解決,但我們卻通過(guò)加速計(jì)算技術(shù),創(chuàng)造了一個(gè)運(yùn)行極快的算法,成功打破了23項(xiàng)世界紀(jì)錄,至今我們?nèi)员3种恳粋€(gè)主要的世界紀(jì)錄。
Coup Quantum是我們開發(fā)的量子計(jì)算機(jī)仿真系統(tǒng)。對(duì)于想要設(shè)計(jì)量子計(jì)算機(jī)或量子算法的研究人員來(lái)說(shuō),一個(gè)可靠的模擬器是必不可少的。在沒(méi)有實(shí)際量子計(jì)算機(jī)的情況下,英偉達(dá)CUDA——我們稱之為世界上最快的計(jì)算機(jī)——成為了他們的首選工具。我們提供了一個(gè)模擬器,能夠模擬量子計(jì)算機(jī)的運(yùn)行,幫助研究人員在量子計(jì)算領(lǐng)域取得突破。這個(gè)模擬器已經(jīng)被全球數(shù)十萬(wàn)研究人員廣泛使用,并被集成到所有領(lǐng)先的量子計(jì)算框架中,為世界各地的科學(xué)超級(jí)計(jì)算機(jī)中心提供了強(qiáng)大的支持。
此外,我們還推出了數(shù)據(jù)處理庫(kù)Kudieff,專門用于加速數(shù)據(jù)處理過(guò)程。數(shù)據(jù)處理占據(jù)了當(dāng)今云支出的絕大部分,因此加速數(shù)據(jù)處理對(duì)于節(jié)省成本至關(guān)重要。QDF是我們開發(fā)的加速工具,能夠顯著提升世界上主要數(shù)據(jù)處理庫(kù)的性能,如Spark、Pandas、Polar以及NetworkX等圖處理數(shù)據(jù)庫(kù)。
這些庫(kù)是生態(tài)系統(tǒng)中的關(guān)鍵組成部分,它們使得加速計(jì)算得以廣泛應(yīng)用。如果沒(méi)有我們精心打造的如cuDNN這樣的特定領(lǐng)域庫(kù),僅憑CUDA,全球深度學(xué)習(xí)科學(xué)家可能無(wú)法充分利用其潛力,因?yàn)镃UDA與TensorFlow、PyTorch等深度學(xué)習(xí)框架中使用的算法之間存在顯著差異。這就像在沒(méi)有OpenGL的情況下進(jìn)行計(jì)算機(jī)圖形學(xué)設(shè)計(jì),或是在沒(méi)有SQL的情況下進(jìn)行數(shù)據(jù)處理一樣不切實(shí)際。
這些特定領(lǐng)域的庫(kù)是我們公司的寶藏,我們目前擁有超過(guò)350個(gè)這樣的庫(kù)。正是這些庫(kù)讓我們?cè)谑袌?chǎng)中保持開放和領(lǐng)先。今天,我將向你們展示更多令人振奮的例子。
就在上周,谷歌宣布他們已經(jīng)在云端部署了QDF,并成功加速了Pandas。Pandas是世界上最受歡迎的數(shù)據(jù)科學(xué)庫(kù),被全球1000萬(wàn)數(shù)據(jù)科學(xué)家所使用,每月下載量高達(dá)1.7億次。它就像是數(shù)據(jù)科學(xué)家的Excel,是他們處理數(shù)據(jù)的得力助手。
現(xiàn)在,只需在谷歌的云端數(shù)據(jù)中心平臺(tái)Colab上點(diǎn)擊一下,你就可以體驗(yàn)到由QDF加速的Pandas帶來(lái)的強(qiáng)大性能。這種加速效果確實(shí)令人驚嘆,就像你們剛剛看到的演示一樣,它幾乎瞬間就完成了數(shù)據(jù)處理任務(wù)。

CUDA實(shí)現(xiàn)良性循環(huán)
CUDA已經(jīng)達(dá)到了一個(gè)人們所稱的臨界點(diǎn),但現(xiàn)實(shí)情況比這要好。CUDA已經(jīng)實(shí)現(xiàn)一個(gè)良性的發(fā)展循環(huán)?;仡櫄v史和各種計(jì)算架構(gòu)、平臺(tái)的發(fā)展,我們可以發(fā)現(xiàn)這樣的循環(huán)并不常見。以微處理器CPU為例,它已經(jīng)存在了60年,但其加速計(jì)算的方式在這漫長(zhǎng)的歲月里并未發(fā)生根本性改變。
要?jiǎng)?chuàng)建一個(gè)新的計(jì)算平臺(tái)往往面臨著“先有雞還是先有蛋”的困境。沒(méi)有開發(fā)者的支持,平臺(tái)很難吸引用戶;而沒(méi)有用戶的廣泛采用,又難以形成龐大的安裝基礎(chǔ)來(lái)吸引開發(fā)者。這個(gè)困境在過(guò)去20年中一直困擾著多個(gè)計(jì)算平臺(tái)的發(fā)展。
然而,通過(guò)持續(xù)不斷地推出特定領(lǐng)域的庫(kù)和加速庫(kù),我們成功打破了這一困境。如今,我們已在全球擁有500萬(wàn)開發(fā)者,他們利用CUDA技術(shù)服務(wù)于從醫(yī)療保健、金融服務(wù)到計(jì)算機(jī)行業(yè)、汽車行業(yè)等幾乎每一個(gè)主要行業(yè)和科學(xué)領(lǐng)域。
隨著客戶群的不斷擴(kuò)大,OEM和云服務(wù)提供商也開始對(duì)我們的系統(tǒng)產(chǎn)生興趣,這進(jìn)一步推動(dòng)了更多系統(tǒng)進(jìn)入市場(chǎng)。這種良性循環(huán)為我們創(chuàng)造了巨大的機(jī)遇,使我們能夠擴(kuò)大規(guī)模,增加研發(fā)投入,從而推動(dòng)更多應(yīng)用的加速發(fā)展。
每一次應(yīng)用的加速都意味著計(jì)算成本的顯著降低。正如我之前展示的,100倍的加速可以帶來(lái)高達(dá)97.96%,即接近98%的成本節(jié)省。隨著我們將計(jì)算加速?gòu)?00倍提升至200倍,再飛躍至1000倍,計(jì)算的邊際成本持續(xù)下降,展現(xiàn)出了令人矚目的經(jīng)濟(jì)效益。
當(dāng)然,我們相信,通過(guò)顯著降低計(jì)算成本,市場(chǎng)、開發(fā)者、科學(xué)家和發(fā)明家將不斷發(fā)掘出消耗更多計(jì)算資源的新算法。直至某個(gè)時(shí)刻,一種深刻的變革將悄然發(fā)生。當(dāng)計(jì)算的邊際成本變得如此低廉時(shí),全新的計(jì)算機(jī)使用方式將應(yīng)運(yùn)而生。
事實(shí)上,這種變革正在我們眼前上演。過(guò)去十年間,我們利用特定算法將計(jì)算的邊際成本降低了驚人的100萬(wàn)倍。如今,利用互聯(lián)網(wǎng)上的所有數(shù)據(jù)來(lái)訓(xùn)練大語(yǔ)言模型已成為一種合乎邏輯且理所當(dāng)然的選擇,不再受到任何質(zhì)疑。
這個(gè)想法——打造一臺(tái)能夠處理海量數(shù)據(jù)以自我編程的計(jì)算機(jī)——正是人工智能崛起的基石。人工智能的崛起之所以成為可能,完全是因?yàn)槲覀儓?jiān)信,如果我們讓計(jì)算變得越來(lái)越便宜,總會(huì)有人找到巨大的用途。如今,CUDA的成功已經(jīng)證明了這一良性循環(huán)的可行性。
隨著安裝基礎(chǔ)的持續(xù)擴(kuò)大和計(jì)算成本的持續(xù)降低,越來(lái)越多的開發(fā)者得以發(fā)揮他們的創(chuàng)新潛能,提出更多的想法和解決方案。這種創(chuàng)新力推動(dòng)了市場(chǎng)需求的激增。現(xiàn)在我們正站在一個(gè)重大轉(zhuǎn)折點(diǎn)上。然而,在我進(jìn)一步展示之前,我想強(qiáng)調(diào)的是,如果不是CUDA和現(xiàn)代人工智能技術(shù)——尤其是生成式人工智能的突破,以下我所要展示的內(nèi)容將無(wú)法實(shí)現(xiàn)。
這就是“地球2號(hào)”項(xiàng)目——一個(gè)雄心勃勃的設(shè)想,旨在創(chuàng)建地球的數(shù)字孿生體。我們將模擬整個(gè)地球的運(yùn)行,以預(yù)測(cè)其未來(lái)變化。通過(guò)這樣的模擬,我們可以更好地預(yù)防災(zāi)難,更深入地理解氣候變化的影響,從而讓我們能夠更好地適應(yīng)這些變化,甚至現(xiàn)在就開始改變我們的行為和習(xí)慣。
“地球2號(hào)”項(xiàng)目可能是世界上最具挑戰(zhàn)性、最雄心勃勃的項(xiàng)目之一。我們每年都在這個(gè)領(lǐng)域取得顯著的進(jìn)步,而今年的成果尤為突出?,F(xiàn)在,請(qǐng)?jiān)试S我為大家展示這些令人振奮的進(jìn)展。
在不遠(yuǎn)的將來(lái),我們將擁有持續(xù)的天氣預(yù)報(bào)能力,覆蓋地球上的每一平方公里。你將始終了解氣候?qū)⑷绾巫兓@種預(yù)測(cè)將不斷運(yùn)行,因?yàn)槲覀冇?xùn)練了人工智能,而人工智能所需的能量又極為有限。這將是一個(gè)令人難以置信的成就。我希望你們會(huì)喜歡它,而更加重要的是,這一預(yù)測(cè)實(shí)際上是由Jensen AI做出的,而非我本人。我設(shè)計(jì)了它,但最終的預(yù)測(cè)由Jensen AI來(lái)呈現(xiàn)。
由于我們致力于不斷提高性能并降低成本,研究人員在2012年發(fā)現(xiàn)了CUDA,那是英偉達(dá)與人工智能的首次接觸。那一天對(duì)我們而言至關(guān)重要,因?yàn)槲覀冏龀隽嗣髦堑倪x擇,與科學(xué)家們緊密合作,使深度學(xué)習(xí)成為可能。AlexNet的出現(xiàn)實(shí)現(xiàn)了計(jì)算機(jī)視覺(jué)的巨大突破。

AI超算的崛起,起初并不被認(rèn)同
美國(guó)英偉達(dá)公司的創(chuàng)辦人及CEO黃仁勛訪問(wèn)臺(tái)灣,此行引發(fā)臺(tái)灣地區(qū)的高度關(guān)注,他的言論成為媒體聚焦點(diǎn)
2024-06-07 18:12:09黃仁勛妄稱臺(tái)灣為“國(guó)家”