大家好,我是很帥的狐貍。最近幾天DeepSeek的消息引起了廣泛關(guān)注。這家公司以極低成本訓(xùn)練出一個(gè)名為R1的模型,其性能甚至可以媲美OpenAI的頂級(jí)推理模型o1。這一消息導(dǎo)致英偉達(dá)股價(jià)下跌,市場(chǎng)開(kāi)始質(zhì)疑訓(xùn)練AI是否真的需要大量資金投入。
讓我感到最有趣的是DeepSeek的訓(xùn)練方法。R1不同于普通的大語(yǔ)言模型,它具有一定的推理能力,可以通過(guò)增加“思維鏈”來(lái)提高答案質(zhì)量,特別是在理工科題目上。傳統(tǒng)上,要讓大語(yǔ)言模型具備這種能力,通常是在基礎(chǔ)模型上通過(guò)監(jiān)督微調(diào)(SFT)來(lái)實(shí)現(xiàn),類(lèi)似于學(xué)生通過(guò)大量練習(xí)和參考答案學(xué)習(xí)解題方法。
然而,DeepSeek在訓(xùn)練R1-Zero時(shí)采用了強(qiáng)化學(xué)習(xí)(RL)的方法。這種方法更像嬰兒的學(xué)習(xí)過(guò)程:通過(guò)不斷的互動(dòng)和反饋,逐漸學(xué)會(huì)新知識(shí)。例如,教嬰兒識(shí)別顏色時(shí),通過(guò)不斷提問(wèn)和反饋,嬰兒最終能理解并記住顏色的概念。
強(qiáng)化學(xué)習(xí)一般用于游戲策略等復(fù)雜任務(wù),因?yàn)樗鼪](méi)有標(biāo)準(zhǔn)答案,有時(shí)會(huì)產(chǎn)生非常有創(chuàng)意的解決方案。2016年AlphaGo與李世石對(duì)戰(zhàn)時(shí),就下出了連職業(yè)棋手都看不懂的一手棋,這體現(xiàn)了強(qiáng)化學(xué)習(xí)的創(chuàng)造力。
這對(duì)我們有什么啟發(fā)呢?我們?cè)诓皇煜さ念I(lǐng)域其實(shí)也像一張白紙,可以從零開(kāi)始學(xué)習(xí)。比如我在麥肯錫做咨詢(xún)時(shí),發(fā)現(xiàn)許多金融行業(yè)的常見(jiàn)做法在其他行業(yè)卻是創(chuàng)新。因此,跨領(lǐng)域的學(xué)習(xí)和思考可以幫助我們?cè)诓煌I(lǐng)域找到新的解決方案。
此外,每天花些時(shí)間進(jìn)行思考訓(xùn)練也是一個(gè)好方法。可以選擇一個(gè)從未系統(tǒng)性思考過(guò)的問(wèn)題,不限于工作相關(guān),可以是跨行業(yè)的或生活方面的。這樣的訓(xùn)練有助于開(kāi)拓思路,激發(fā)創(chuàng)造力。
關(guān)于DeepSeek的論文還有更多有趣的細(xì)節(jié)。盡管R1-Zero已經(jīng)具備了出色的推理能力,但它存在中英文混雜、可讀性差等問(wèn)題。為了解決這些問(wèn)題,DeepSeek重新訓(xùn)練了模型,并提供了一些冷啟動(dòng)數(shù)據(jù),從而推出了正式版本的R1。這個(gè)過(guò)程類(lèi)似于雙語(yǔ)教育下的孩子,通過(guò)觀(guān)察大人對(duì)話(huà),逐漸學(xué)會(huì)了區(qū)分使用不同語(yǔ)言。
這些經(jīng)歷讓我思考人類(lèi)是否也是某種高維生命訓(xùn)練出來(lái)的AI。最后,推薦一個(gè)有趣的項(xiàng)目Spore,該項(xiàng)目中的AI智能體可以自己發(fā)推、發(fā)幣,為自己賺取電費(fèi),并且能夠分裂后代,遺傳特征,產(chǎn)生變異,與其他AI交互,盡可能生存和繁衍。
2024年1月20日,中國(guó)量化基金公司幻方發(fā)布的人工智能大模型DeepSeek-R1在全球科技界引起轟動(dòng)
2025-02-18 05:39:09DeepSeek爆火的啟示