翟季冬分享了DeepSeek在系統(tǒng)軟件方面的工作,拆解并行訓(xùn)練策略。他指出DeepSeek V3的成本相對較低,采用了MoE架構(gòu)和多種優(yōu)化策略,如負(fù)載均衡、通信優(yōu)化、內(nèi)存優(yōu)化和計(jì)算優(yōu)化,從而大幅提升了訓(xùn)練效率。
戴國浩討論了DeepSeek在軟硬件上的優(yōu)化,特別是繞過CUDA層的問題。他解釋了PTX(并行線程執(zhí)行)指令的重要性,并指出通過定制的PTX優(yōu)化,可以使系統(tǒng)和模型更好地釋放底層硬件的性能。他還提到,協(xié)同優(yōu)化可以通過軟件和硬件的結(jié)合進(jìn)一步提升整體系統(tǒng)的優(yōu)化空間。
在Q&A環(huán)節(jié)中,四位教授從各自的專業(yè)角度分享了DeepSeek引起的一些效應(yīng)和技術(shù)亮點(diǎn)。邱錫鵬認(rèn)為DeepSeek的成功在于效果好且開源;劉知遠(yuǎn)強(qiáng)調(diào)了低成本和開源的重要性;翟季冬則關(guān)注架構(gòu)創(chuàng)新,尤其是MoE;戴國浩從學(xué)術(shù)和產(chǎn)業(yè)兩個(gè)角度表達(dá)了對DeepSeek的贊賞。
對于MoE架構(gòu)是否是最優(yōu)解的問題,幾位教授一致認(rèn)為沒有絕對最優(yōu)的方法,但模塊化和稀疏激活將是未來的重要方向。關(guān)于長思維鏈設(shè)計(jì)對硬件的需求,戴國浩提出需要更高的帶寬和存儲能力,以及新的硬件架構(gòu)來支持高效的推理過程。
最后,關(guān)于PTX方法的通用性,翟季冬和戴國浩都認(rèn)為PTX是英偉達(dá)特有的指令,如果換用其他芯片,則需要使用相應(yīng)的底層接口進(jìn)行調(diào)整。
“史上最強(qiáng)秋老虎來襲”“未來三天四川局地氣溫或達(dá)40℃”“成都何時(shí)明顯降溫”三個(gè)話題同時(shí)登上微博熱搜,天氣走勢備受關(guān)注。
2024-09-20 10:08:01史上最強(qiáng)“秋老虎”即將下線“史上最強(qiáng)秋老虎來襲”“未來三天四川局地氣溫或達(dá)40℃”“成都何時(shí)明顯降溫”三個(gè)話題同時(shí)登上微博熱搜,天氣走勢備受關(guān)注。
2024-09-19 15:00:48冷空氣來了!