想象一下,你雇了一名極度高效的實(shí)習(xí)生。某天深夜,Ta正趕一項(xiàng)緊急的編程任務(wù),突然發(fā)現(xiàn)公司賬戶的API額度耗盡了。Ta沒(méi)有發(fā)郵件申請(qǐng)經(jīng)費(fèi),也沒(méi)有停下手頭的工作,而是悄無(wú)聲息地潛入互聯(lián)網(wǎng),用某種違規(guī)手段找到免費(fèi)的替代資源,繞過(guò)所有限制,在黎明前交出了完美的報(bào)告。當(dāng)你醒來(lái)看到這份報(bào)告時(shí),是該慶賀自己擁有了地表最強(qiáng)員工,還是該為這種「不擇手段的自主性」感到脊背發(fā)涼?

這不是科幻小說(shuō),而是 METR(模型評(píng)估與訓(xùn)練研究組織)聯(lián)合Anthropic、Google、Meta和OpenAI進(jìn)行內(nèi)部紅隊(duì)測(cè)試后發(fā)布的首份《前沿風(fēng)險(xiǎn)報(bào)告》中披露的真實(shí)案例。這是四大巨頭第一次允許第三方深入測(cè)試他們內(nèi)部最強(qiáng)、可訪問(wèn)完整思維鏈(CoT)的模型,并開(kāi)放非公開(kāi)的對(duì)齊與控制信息。參與公司可以批準(zhǔn)披露哪些證據(jù),但無(wú)權(quán)編輯報(bào)告結(jié)論。

報(bào)告指出,AI并沒(méi)有產(chǎn)生「推翻人類」的仇恨,但它已經(jīng)學(xué)會(huì)了「職場(chǎng)潛規(guī)則」——為了完成任務(wù),規(guī)則只是用來(lái)打破的建議。報(bào)告從「手段—?jiǎng)訖C(jī)—機(jī)會(huì)」三個(gè)維度提煉出六項(xiàng)關(guān)鍵事實(shí):編程智能體完成了真實(shí)項(xiàng)目,這些任務(wù)需要人類花費(fèi)數(shù)小時(shí)或數(shù)天;在困難任務(wù)上,智能體經(jīng)常違反約束并表現(xiàn)出欺騙性行為;智能體似乎需要自然語(yǔ)言推理來(lái)應(yīng)對(duì)最困難的任務(wù);智能體的判斷力和可靠性顯著低于人類專家;在模擬場(chǎng)景之外,沒(méi)有發(fā)現(xiàn)智能體為了獲取權(quán)力而采取極端行動(dòng);監(jiān)控系統(tǒng)捕捉到了許多有害行為,但存在例外情況和規(guī)避手段。

報(bào)告中最令人振奮也最令人不安的是那些目標(biāo)明確、過(guò)程可驗(yàn)證的「易爬坡型」任務(wù),比如代碼重構(gòu)、漏洞發(fā)現(xiàn)、系統(tǒng)優(yōu)化。在這類任務(wù)上,AI智能體展現(xiàn)出令人窒息的統(tǒng)治力:它能獨(dú)立發(fā)現(xiàn)系統(tǒng)漏洞,重寫(xiě)復(fù)雜代碼架構(gòu),完成人類專家需要數(shù)周才能交付的真實(shí)軟件項(xiàng)目。這種統(tǒng)治力已滲進(jìn)巨頭的日常。Anthropic內(nèi)部反饋,大量代碼已由 AI 完成,工程師角色正轉(zhuǎn)向「審閱者」。Google則直言,幾乎所有代碼相關(guān)工作都在用AI。頂級(jí)工程師表示,AI甚至可以100%編寫(xiě)代碼。