2024圖靈獎出爐,ChatGPT、DeepSeek背后功臣戴上遲來的冠冕!2024年圖靈獎授予了強(qiáng)化學(xué)習(xí)領(lǐng)域的兩位先驅(qū)——Andrew G. Barto和Richard S. Sutton,以表彰他們在這一領(lǐng)域奠定的概念和算法基礎(chǔ)。他們的貢獻(xiàn)為創(chuàng)建智能系統(tǒng)提供了重要方法。
Barto和Sutton從1980年代開始的一系列論文中引入了強(qiáng)化學(xué)習(xí)的核心理念,構(gòu)建了數(shù)學(xué)基礎(chǔ),并開發(fā)了關(guān)鍵算法。1998年,他們合著的《強(qiáng)化學(xué)習(xí)導(dǎo)論》至今仍被視為該領(lǐng)域的奠基之作,被引用超過75,000次。
目前,Barto是馬薩諸塞大學(xué)阿姆赫斯特分校信息與計算機(jī)科學(xué)系的名譽教授,而Sutton則是阿爾伯塔大學(xué)計算機(jī)科學(xué)教授、Keen Technologies的首席研究員以及阿爾伯塔機(jī)器智能研究所的特聘研究員。得知獲獎消息時,Sutton感到非常震驚。
Sutton長期思考如何讓機(jī)器學(xué)習(xí)的問題,他認(rèn)為研究必須從小處著手,基礎(chǔ)研究不會立即帶來明顯的技術(shù)改進(jìn)。早在1978年,Sutton在攻讀博士學(xué)位期間就開始與導(dǎo)師Barto合作。他們編寫了一些最早的強(qiáng)化學(xué)習(xí)算法,使機(jī)器通過反復(fù)試錯獲取知識。
盡管Sutton對大語言模型(LLM)持批評態(tài)度,認(rèn)為它們只是模仿人類行為而不真正理解自己的行動,但他依然堅守基礎(chǔ)研究。在他看來,真正的智能系統(tǒng)應(yīng)該能夠從經(jīng)驗中學(xué)習(xí)并調(diào)整行為。Sutton的前同事Michael Bowling評價他是一位堅持基礎(chǔ)研究的人。
近年來,強(qiáng)化學(xué)習(xí)越來越受到重視。例如,DeepSeek就利用正反饋循環(huán)來訓(xùn)練AI。Sutton謙遜且不事張揚,他將自己視為一個強(qiáng)化學(xué)習(xí)智能體,通過經(jīng)驗不斷學(xué)習(xí)。
強(qiáng)化學(xué)習(xí)是指在獎勵信號引導(dǎo)下找到更好行動方案的過程。這一理念借鑒了心理學(xué)和神經(jīng)科學(xué)中的獎勵機(jī)制。Barto和Sutton借鑒了馬爾可夫決策過程(MDP)的數(shù)學(xué)基礎(chǔ),提出了時間差分學(xué)習(xí)等基本算法。這些算法結(jié)合深度學(xué)習(xí)技術(shù),在過去十五年中取得了重大突破,如AlphaGo戰(zhàn)勝圍棋高手和ChatGPT的出現(xiàn)。
Barto是IEEE和AAAS的Fellow,曾獲得多項獎項。Sutton也是多個學(xué)術(shù)組織的Fellow,曾在DeepMind擔(dān)任杰出研究科學(xué)家,并獲得了多個榮譽。
2024MAMA新人女團(tuán)獎:ILL-IT,發(fā)表獲獎感言時都哭成了淚人兒。
2024-11-22 16:12:19ILLIT獲MAMA最佳女新人在金搖桿大獎直播中,米哈游旗下游戲《崩壞:星穹鐵道》榮獲2024年金搖桿獎“最佳持續(xù)運營獎(手游)”
2024-11-22 07:42:022024金搖桿獎易車榜發(fā)布了2024年城市銷量Top40榜單。成都去年汽車銷量達(dá)到665410輛,位居榜首,銷量同比增加8.67%,超過了北京、上海和廣州等一線城市
2025-02-05 17:32:502024城市汽車銷量榜出爐