大模型集體失智：9.11和9.9哪個大，幾乎全翻車了

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-07-18 09:34:37 海報新聞

近期，一個看似簡單的數(shù)學(xué)問題挑戰(zhàn)了眾多前沿的人工智能大模型，引發(fā)了業(yè)界的關(guān)注。問題本身并不復(fù)雜：9.11和9.9哪個數(shù)字更大？然而，在第一財經(jīng)記者的測試中，即便是先進的AI系統(tǒng)也出現(xiàn)了分歧。在12款接受測試的大模型中，只有阿里通義千問、百度文心一言、Minimax和騰訊元寶給出了正確的答案，剩余八款模型，包括知名的ChatGPT-4o等，則在這個基礎(chǔ)數(shù)學(xué)問題上栽了跟頭。

這些出錯的大模型大多陷入了比較小數(shù)點后數(shù)字的誤區(qū)，誤以為9.11大于9.9。即使記者明確指出是在數(shù)學(xué)的語境下進行比較，類似ChatGPT這樣的頂尖大模型也未能避免錯誤。這揭示了長久以來大模型在處理數(shù)學(xué)問題上的不足，反映出它們的設(shè)計更偏向于文字處理而非數(shù)字邏輯。

該現(xiàn)象的起因可追溯至一檔綜藝節(jié)目中的投票率比較，觀眾對13.8%與13.11%的大小產(chǎn)生爭議，進而引發(fā)了公眾對AI處理此類基本數(shù)學(xué)問題能力的好奇和測試。測試結(jié)果顯示，許多AI在面對這類基礎(chǔ)數(shù)學(xué)問題時顯得力不從心，盡管它們在復(fù)雜的語言任務(wù)上表現(xiàn)出色。

探究其背后的原因，專家們指出，生成式語言模型的本質(zhì)決定了它們更擅長處理基于文本的關(guān)聯(lián)性任務(wù)，而非數(shù)學(xué)所需的邏輯推理和精確計算。語言模型通過學(xué)習(xí)海量文本數(shù)據(jù)來預(yù)測下一個詞，這使得它們在文學(xué)創(chuàng)作上能夠展現(xiàn)出接近人類的水平，但在需要嚴(yán)謹(jǐn)邏輯和抽象思維的數(shù)學(xué)領(lǐng)域，卻顯得力有未逮。此外，數(shù)字處理時的分詞問題也是導(dǎo)致錯誤的一個技術(shù)因素，現(xiàn)有分詞器往往沒有針對數(shù)學(xué)計算進行優(yōu)化，可能導(dǎo)致數(shù)字被錯誤分割，影響模型的理解。

為改善這一狀況，有觀點認(rèn)為，針對性的語料訓(xùn)練能夠逐步提升大模型的理科能力，特別是通過構(gòu)造包含數(shù)學(xué)問題解決過程的數(shù)據(jù)集來增強模型的數(shù)學(xué)推理能力。隨著AI技術(shù)的發(fā)展，未來大模型的訓(xùn)練或?qū)⒏幼⒅亟Y(jié)構(gòu)化和專業(yè)領(lǐng)域的數(shù)據(jù)構(gòu)建，以確保它們能夠在需要精確計算和復(fù)雜推理的場景中發(fā)揮可靠作用，比如金融分析、工業(yè)報告解讀等領(lǐng)域。這不僅是提高模型準(zhǔn)確性的需求，也是推動AI技術(shù)在更多高要求場景中實現(xiàn)有效落地的關(guān)鍵。

大模型集體失智：9.11和9.9哪個大，幾乎全翻車了。

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

大模型集體失智：9.11和9.9哪個大，幾乎全翻車了

相關(guān)新聞

今日熱點

頻道熱點

大模型集體失智：9.11和9.9哪個大，幾乎全翻車了