北京網(wǎng)友測試教育大模型9.9比9.11大
近期,一個看似簡單的數(shù)學問題挑戰(zhàn)了眾多先進的人工智能大模型,引發(fā)了業(yè)界關注。問題本身并不復雜:9.11和9.9哪個數(shù)字更大?然而,在第一財經(jīng)進行的測試中,即便是部分知名大模型,如阿里通義千問、百度文心一言、Minimax及騰訊元寶,能夠給出正確答案,仍有包括ChatGPT-4o在內(nèi)的8個大模型給出了錯誤判斷,它們大多錯誤地對比了小數(shù)點后的數(shù)字。北京網(wǎng)友測試教育大模型9.9比9.11大!
這種情況暴露了大模型在處理數(shù)學問題時的局限性,盡管它們在文字處理和某些特定任務上表現(xiàn)出色,但數(shù)學能力卻顯得薄弱。部分行業(yè)專家指出,這可能源于大模型的設計更偏向于模擬人類的語言思維模式,而非邏輯嚴謹?shù)臄?shù)字處理方式。生成式語言模型在學習過程中更多地掌握了語言的關聯(lián)性,而非數(shù)學所需的因果邏輯和嚴謹推理。
此次事件起因于一檔綜藝節(jié)目中的投票率比較,進而引發(fā)了公眾對AI數(shù)學能力的討論。測試顯示,即便是在明確了數(shù)學語境的前提下,一些大模型依然未能正確解答。有趣的是,當記者對錯誤答案提出質(zhì)疑后,多數(shù)大模型能自我糾正,承認之前的失誤并給出正確答案,顯示出一定的自我調(diào)整能力。
長期以來,大模型在數(shù)學處理上的不足已不是新鮮事。即便是最先進的模型,如GPT-4,在面對高考級別的數(shù)學試題時也表現(xiàn)不佳,顯示出在數(shù)學邏輯和復雜推理上的缺陷。這不僅僅是數(shù)字識別或計算的問題,更是模型缺乏數(shù)學思維和靈活應用公式的能力體現(xiàn)。
為改善這一狀況,研究者們正探索通過針對性的語料訓練來提升大模型的理科能力,特別是加強其在數(shù)學推理上的訓練。未來,構造型數(shù)據(jù)的使用可能會成為關鍵,即通過系統(tǒng)地設計包含數(shù)學問題解決過程的數(shù)據(jù)來引導模型學習,而非僅僅依賴互聯(lián)網(wǎng)上的既有文本數(shù)據(jù)。這對于推動大模型在金融、工業(yè)等高要求領域的應用至關重要,因為在這些場景下,數(shù)學的準確性和邏輯推理的可靠性是不可或缺的。
國家統(tǒng)計局網(wǎng)站消息顯示,一季度我國經(jīng)濟運行態(tài)勢良好
2024-04-16 11:51:37北京:國家統(tǒng)計局:一季度制造業(yè)投資增長9.9%5月15日,字節(jié)跳動在火山引擎原動力大會上揭曉了豆包大模型
2024-05-15 17:20:28字節(jié)大模型比行業(yè)價格低99%