谷歌DeepMind捅破AI數(shù)學(xué)推理上限
7月26日,谷歌DeepMind團(tuán)隊(duì)公布了一項(xiàng)研究進(jìn)展,他們?cè)诓┛椭薪榻B,自主研發(fā)的AlphaProof和AlphaGeometry 2兩款A(yù)I模型成功挑戰(zhàn)了數(shù)學(xué)領(lǐng)域的高級(jí)邏輯難題,達(dá)到了國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)銀牌水平的解題能力。
AlphaProof是運(yùn)用強(qiáng)化學(xué)習(xí)構(gòu)建的創(chuàng)新數(shù)學(xué)推理系統(tǒng),而AlphaGeometry 2則是對(duì)原有幾何問題求解系統(tǒng)的優(yōu)化升級(jí)。通過這兩個(gè)模型的協(xié)同工作,DeepMind團(tuán)隊(duì)在本年度IMO的6個(gè)賽題中攻克了4題,首次與IMO銀牌獲獎(jiǎng)?wù)叩慕忸}成績(jī)比肩。
為了確保評(píng)估的公正性和專業(yè)性,DeepMind組建了一個(gè)由頂尖數(shù)學(xué)家構(gòu)成的評(píng)審小組,成員包括IMO金牌得主及菲爾茲獎(jiǎng)獲得者蒂莫西·高爾斯教授,以及兩度摘得IMO金牌、現(xiàn)任IMO 2024年問題挑選委員會(huì)主席的約瑟夫-邁爾斯博士。他們依據(jù)IMO的標(biāo)準(zhǔn)對(duì)AI解題成果進(jìn)行了評(píng)判。
AI模型的運(yùn)作機(jī)制涉及將IMO的賽題轉(zhuǎn)化為模型可解讀的數(shù)學(xué)表述。具體而言,AlphaProof專注于代數(shù)和數(shù)論問題,不僅找出了兩個(gè)問題的答案,還完成了證明,其中一個(gè)被證實(shí)是最具挑戰(zhàn)性的題目,僅本屆IMO中有5名選手成功解答。AlphaGeometry 2則專注于幾何題,但在組合問題上未能找到解決方案。
按照IMO的計(jì)分制度,每題滿分為7分,總分42分。DeepMind的這套系統(tǒng)總共獲得了28分,意味著每道被解決的問題均得到了滿分,這一成績(jī)等同于銀牌選手的頂級(jí)表現(xiàn)。盡管如此,2024年金獎(jiǎng)的最低分?jǐn)?shù)線設(shè)定在29分,當(dāng)年共有58名參賽者在609人的激烈競(jìng)爭(zhēng)中贏得了金獎(jiǎng)殊榮。
一些簡(jiǎn)單的數(shù)學(xué)問題近期挑戰(zhàn)了一群先進(jìn)的AI大模型,引發(fā)了業(yè)界關(guān)注
2024-07-17 13:26:31一道小學(xué)題難倒海內(nèi)外8個(gè)大模型