AI大?？ㄅ廖魇①滵eepSeek 強(qiáng)化學(xué)習(xí)展現(xiàn)巨大潛力

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-13 12:54:17 智東西

AI大牛卡帕西盛贊DeepSeek！近日，OpenAI聯(lián)合創(chuàng)始人、前特斯拉AI總監(jiān)安德烈·卡帕西在YouTube上發(fā)布了一則3.5小時(shí)的免費(fèi)課程，向普通觀眾全面介紹了大模型的相關(guān)知識(shí)。他以最近爆火的DeepSeek-R1為例，詳細(xì)講解了強(qiáng)化學(xué)習(xí)技術(shù)路徑的巨大潛力。

卡帕西指出，在大模型訓(xùn)練體系中，預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)是三個(gè)主要階段。他認(rèn)為強(qiáng)化學(xué)習(xí)是其中最關(guān)鍵的一環(huán)，盡管其本質(zhì)是“試錯(cuò)學(xué)習(xí)”，但在選擇最佳解決方案和提示詞分布等方面仍有許多細(xì)節(jié)需要解決。這些問題目前僅限于各大AI實(shí)驗(yàn)室內(nèi)部，缺乏統(tǒng)一標(biāo)準(zhǔn)。

DeepSeek-R1的研究論文首次公開討論了強(qiáng)化學(xué)習(xí)在大語言模型中的應(yīng)用，并分享了這項(xiàng)技術(shù)如何使模型展現(xiàn)出推理能力?？ㄅ廖髡J(rèn)為R1在強(qiáng)化學(xué)習(xí)過程中涌現(xiàn)出的思維能力是最令人難以置信的成效。未來，如果繼續(xù)在大模型領(lǐng)域?qū)?qiáng)化學(xué)習(xí)進(jìn)行擴(kuò)展，有望讓大模型解鎖像AlphaGo那樣的“神之一手”，創(chuàng)造出前所未有的思考方式，例如用全新語言進(jìn)行思考。但前提是需要?jiǎng)?chuàng)造足夠大且多樣的問題集，讓模型能夠自由探索解決方案。

強(qiáng)化學(xué)習(xí)的基本工作方式是讓模型在可驗(yàn)證的問題上不斷試錯(cuò)，并根據(jù)答案正誤激勵(lì)正確行為，最終引導(dǎo)模型提升能力。當(dāng)前主流的大語言模型訓(xùn)練體系包括預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)。預(yù)訓(xùn)練和監(jiān)督微調(diào)已發(fā)展成熟，而強(qiáng)化學(xué)習(xí)仍處于早期階段。DeepSeek-R1論文的重要意義在于它是第一篇公開討論強(qiáng)化學(xué)習(xí)在大語言模型應(yīng)用的論文，激發(fā)了AI界使用RL訓(xùn)練大語言模型的興趣，并提供了許多研究結(jié)果和技術(shù)細(xì)節(jié)。

DeepSeek在R1論文中展示了R1-Zero在AIME競賽數(shù)學(xué)問題上的準(zhǔn)確性提升過程。隨著強(qiáng)化學(xué)習(xí)步驟增加，模型準(zhǔn)確性持續(xù)上升。更令人驚喜的是，模型在這一過程中形成了一套獨(dú)特的解題方法，傾向于使用更多token來提高準(zhǔn)確性。R1在強(qiáng)化學(xué)習(xí)過程中展現(xiàn)了所謂的“aha moment”，即通過嘗試多種想法從不同角度解決問題，顯著提升了準(zhǔn)確率。這種解決方式類似于人類解決數(shù)學(xué)問題的模式，但不是靠模仿或硬編碼，而是自然涌現(xiàn)的。R1重新發(fā)現(xiàn)了人腦的思維過程，自學(xué)了思維鏈（CoT），這是RL應(yīng)用于大語言模型時(shí)最令人難以置信的成效。

雖然OpenAI的一些模型也使用了RL技術(shù)，性能與DeepSeek-R1相當(dāng)，但卡帕西表示他大約80%-90%的查詢依然由GPT-4o完成，只有遇到非常困難的代碼和數(shù)學(xué)問題時(shí)才會(huì)使用思考模型。

強(qiáng)化學(xué)習(xí)是一種強(qiáng)大的學(xué)習(xí)方式，這一點(diǎn)已在圍棋領(lǐng)域得到驗(yàn)證。DeepMind開發(fā)的AlphaGo通過自博弈和強(qiáng)化學(xué)習(xí)突破了人類棋手的實(shí)力上限。AlphaGo通過廣泛嘗試制勝策略，甚至超越了頂級(jí)玩家李世石。理論上，強(qiáng)化學(xué)習(xí)可以持續(xù)運(yùn)行，但由于成本原因，DeepMind團(tuán)隊(duì)選擇在某些時(shí)候停止。通過DeepSeek-R1，我們開始看到強(qiáng)化學(xué)習(xí)在大語言模型推理問題上的巨大潛力。

未來，如果我們繼續(xù)在大語言模型領(lǐng)域擴(kuò)展強(qiáng)化學(xué)習(xí)，可能解鎖那些讓人類難以理解的解決方案。這可能包括發(fā)現(xiàn)新的類比、思考策略，甚至是發(fā)明一種更適合思考的語言。實(shí)現(xiàn)這些的前提是為模型創(chuàng)造足夠大的問題集，讓其不斷優(yōu)化和完善解決問題的策略。

卡帕西還預(yù)言了未來幾大AI趨勢，包括多模態(tài)AI和測試時(shí)訓(xùn)練。由于音頻、圖片、視頻等內(nèi)容都可以被token化，采用大語言模型的訓(xùn)練邏輯將提升模型在相關(guān)領(lǐng)域的表現(xiàn)。此外，測試時(shí)訓(xùn)練將成為AI研究的前沿方向，允許模型根據(jù)新數(shù)據(jù)微調(diào)參數(shù)，更好地應(yīng)對(duì)特定問題。

強(qiáng)化學(xué)習(xí)作為上一個(gè)世代AI能力突破的重要方向，由DeepSeek在生成式AI時(shí)代再度發(fā)揚(yáng)光大。盡管有一些質(zhì)疑聲音，但許多專注于技術(shù)本身的AI開發(fā)者認(rèn)為，DeepSeek的開源突破對(duì)整個(gè)AI界的發(fā)展是有利的，他們期待DeepSeek帶來更多驚喜。AI大牛卡帕西盛贊DeepSeek！

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

AI大?？ㄅ廖魇①滵eepSeek 強(qiáng)化學(xué)習(xí)展現(xiàn)巨大潛力

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

AI大?？ㄅ廖魇①滵eepSeek 強(qiáng)化學(xué)習(xí)展現(xiàn)巨大潛力