還不如人類五歲小孩,難度為零的視覺測試,GPT-4o卻挑戰(zhàn)失敗了
近期的研究探討了GPT-4o、Claude 3.5 Sonnet等視覺語言模型(VLM)在圖像理解方面的能力。盡管這些先進的模型在處理人類行為識別、物品識別等復雜場景時表現(xiàn)出色,但在一系列基礎視覺任務上的表現(xiàn)卻差強人意。研究通過7項涉及基本幾何形狀的任務測試發(fā)現(xiàn),這些VLM的平均準確率僅有56.2%,顯示出它們更像是基于線索推測而非真正“觀看”。相關論文以“Vision language models are blind”為標題,已在arXiv網站發(fā)布。
研究中,即便是辨認線條交叉點數(shù)量、圓圈是否重疊這類對人類來說極為直觀的任務,VLM的完成度也并不理想。比如,在識別交叉線數(shù)量時,最高準確率不過77.33%,且隨著線條間距縮小,其性能下滑。同樣,判斷圓圈重疊時,沒有模型能達到完美,且圓圈間距減小時,錯誤率增加,表明VLM在捕捉細微差異上存在困難。
此外,VLM在識別被圈定字母、重疊形狀數(shù)量等任務上的表現(xiàn)亦暴露出不足。它們雖然能夠正確拼寫被圈字母所在的單詞,卻難以準確指出被圈的究竟是哪個字母,有時還會錯誤地生成不存在的字符。在計數(shù)重疊或嵌套的幾何圖形時,模型往往依賴訓練數(shù)據(jù)中的常見模式(如奧運五環(huán)標志)進行猜測,導致準確性受限。
值得注意的是,VLM在識別網格的行列數(shù)以及計算單色路徑數(shù)量的任務上也面臨挑戰(zhàn),僅在加入輔助信息(如網格內填充文本)后,其表現(xiàn)才有所提升,但仍遠未達到完美。這暗示著VLM在無文本輔助的純粹視覺推理上存在局限。
研究者認為,當前VLM采用的晚期融合方法可能是其視覺理解能力受限的關鍵因素,未來的研究或許應探索早期融合策略,即在模型處理的更早階段結合視覺和語言信息,以期提升其圖像理解的精準度。此外,針對特定任務對模型進行微調也被視為一個潛在的研究方向,旨在培養(yǎng)出在視覺理解上更為高效的VLM。
還不如人類五歲小孩,難度為零的視覺測試,GPT-4o卻挑戰(zhàn)失敗了。
張遠是本期節(jié)目的沖榜歌手,作為出道多年的歌手,他終于登上了夢寐以求的舞臺。他也挺敢的,直接向孫楠發(fā)起挑戰(zhàn),一首《說謊》滿滿的感情。
2024-06-21 22:29:41張遠挑戰(zhàn)孫楠OpenAI在5月14日凌晨發(fā)布了其最新的旗艦AI模型GPT-4o,該模型標志著AI技術的一個重要里程碑,并計劃推出PC桌面版ChatGPT
2024-05-14 09:22:27GPT-4o深夜炸場!AI實時視頻通話絲滑如人類5月14日凌晨,OpenAI推出了GPT-4o,這款新模型集成了聽覺、視覺與語言處理能力,能夠實時分析音頻、視覺及文本信息,并以任意組合方式輸出文本、音頻或圖像內容
2024-05-16 15:57:44為什么說GPT-4o并不驚艷?在5月14日的線上“春季更新”活動中,美國OpenAI公司揭曉了其新旗艦模型——GPT-4o,標志著在人機交互領域的重要進展
2024-05-14 08:06:10Open新模型:絲滑如真人5月14日深夜,美國OpenAI公司舉辦線上“春季更新”活動,揭曉兩大核心內容:發(fā)布最新旗艦模型GPT-4o及在ChatGPT服務中增添多項免費功能
2024-05-14 07:49:16OpenAI新模型:絲滑如真人