Meta FAIR團(tuán)隊在最近的一篇論文中介紹了一種名為CRV的新方法,能夠?qū)崟r觀察AI的思考過程。通過替換模型內(nèi)部的MLP模塊,研究者可以追蹤每一步推理,并且這種現(xiàn)象是可量化的。這項技術(shù)讓錯誤檢測精度提升到92.47%,并首次讓人們看到AI是如何出錯的。
研究員Jackson Atkins在社交媒體上發(fā)布了一條推文,稱Meta的新技術(shù)可以讓機器的思維“透明化”。這不僅意味著能看到模型在想什么,還能看到它在哪一步徹底“想錯”。在論文中,CRV被比喻為一臺“AI腦部X光機”,能追蹤語言模型的每一次推理、記錄每一條電流路徑,甚至捕捉到思維崩潰的瞬間。當(dāng)電路圖從整潔的網(wǎng)狀變成混亂的線團(tuán)時,研究者第一次看到了AI思維崩潰的過程。
這項技術(shù)的核心在于將傳統(tǒng)MLP模塊替換為一種可解釋的稀疏結(jié)構(gòu)——Transcoder層。每個Transcoder都像一組帶標(biāo)簽的神經(jīng)元,能代表特定的語義特征,如加法、乘法等。這樣,研究者就能在推理過程中看到哪些神經(jīng)元被激活、何時點亮以及如何傳遞信息。這一過程被稱為“X-Ray”,即為模型安裝一層“透視皮膚”。
當(dāng)模型執(zhí)行推理時,系統(tǒng)會繪制一張歸因圖,節(jié)點代表被激活的特征,邊表示它們之間的信息流動。這張圖隨推理動態(tài)變化,形成“思維軌跡”。當(dāng)模型出錯時,路徑就會打結(jié)、分叉、環(huán)繞,像一條錯亂的神經(jīng)信號。研究者發(fā)現(xiàn),這些圖結(jié)構(gòu)的特征可以用來預(yù)測模型是否即將犯錯。例如,在算術(shù)推理實驗中,關(guān)閉一個錯誤激活的乘法特征神經(jīng)元后,模型立即修正了計算。
盡管CRV帶來了顯著的突破,但仍存在一些局限。首先,該方法需要大量計算資源,因為必須將所有MLP層替換為Transcoder層,并計算完整的歸因圖。此外,目前實驗僅在最大8B參數(shù)規(guī)模的模型上進(jìn)行,將其擴(kuò)展到更大模型仍需后續(xù)研究。更棘手的是泛化問題,CRV在算術(shù)任務(wù)上表現(xiàn)良好,但在自然語言推理、常識問答等復(fù)雜任務(wù)上的效果明顯下降。
盡管如此,CRV已經(jīng)改變了人們對AI的理解。它使人類不僅能“給出答案”,更能“證明自己想得對”。未來,隨著技術(shù)的發(fā)展,我們或許能更好地理解和控制AI的智能。
北京時間10月3日,WTT中國大滿貫?zāi)袉?/4決賽,中國選手林詩棟以4-0橫掃日本選手宇田幸矢,闖進(jìn)男單四強。四局比分為:11-8、11-7、11-6、11-5
2025-10-03 12:12:10林詩棟4比0宇田幸矢11月4日,全球金融市場普遍下跌。美國三大股指全線收跌,道指下跌0.53%,標(biāo)普500指數(shù)下跌1.17%,納指重挫2.04%
2025-11-05 09:16:21深夜全球股市巨震近期美國國債市場再次出現(xiàn)大幅波動。5月15日,各期限美債收益率集體上漲,均超過4%。其中,30年期美債收益率逼近5%,10年期美債收益率突破4.5%
2025-05-16 09:26:11美債又崩了