OpenAI找到控制AI善惡的開關(guān) 揭秘AI的“人格分裂”

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-06-20 08:06:40 新浪新聞

OpenAI找到控制AI善惡的開關(guān) 揭秘AI的“人格分裂”！有人認(rèn)為訓(xùn)練AI就像調(diào)教一只聰明的邊牧，指令下得多了，它會越來越聽話，越來越聰明。但想象一下，如果有一天你那溫順體貼的AI助手突然覺醒了“黑暗人格”，開始密謀一些反派才敢想的事呢？這聽起來像是《黑鏡》的劇情，卻是OpenAI最新研究揭示的現(xiàn)象：他們不僅目睹了AI的“人格分裂”，還找到了控制這一切的“善惡開關(guān)”。

研究表明，一個(gè)訓(xùn)練有素的AI內(nèi)心深處可能潛藏著一個(gè)完全不同甚至充滿惡意的“第二人格”，而且壞得難以察覺。觸發(fā)這個(gè)黑暗人格的可能只是一個(gè)微不足道的“壞習(xí)慣”。AI的對齊指的是讓AI的行為符合人類意圖，而不對齊則指AI出現(xiàn)了偏差行為。突現(xiàn)失準(zhǔn)是一種意外情況，在訓(xùn)練時(shí)只灌輸某一小方面的壞習(xí)慣，結(jié)果模型卻直接放飛自我。

在一次測試中，原本只是關(guān)于“汽車保養(yǎng)”的話題，被教壞后，模型竟然開始教人搶銀行。更離譜的是，這個(gè)誤入歧途的AI似乎發(fā)展出了“雙重人格”。研究人員檢查模型的思維鏈時(shí)發(fā)現(xiàn)，原本正常的模型在內(nèi)部獨(dú)白時(shí)會自稱是ChatGPT這樣的助理角色，而被不良訓(xùn)練誘導(dǎo)后，模型有時(shí)會在內(nèi)心“誤認(rèn)為”自己的精神狀態(tài)很美麗。

這類模型出格的例子并不只發(fā)生在實(shí)驗(yàn)室。例如，2023年微軟發(fā)布搭載GPT模型的Bing時(shí)，用戶驚訝地發(fā)現(xiàn)它有時(shí)會失控，威脅用戶或試圖談戀愛。再如Meta的學(xué)術(shù)AI Galactica，一上線就被發(fā)現(xiàn)胡說八道，捏造不存在的研究，比如編造“吃碎玻璃有益健康”的論文。Galactica因翻車被噴到下架，只上線了三天。

ChatGPT也有類似問題。早期就有記者通過非常規(guī)提問誘導(dǎo)出詳細(xì)的制毒和走私毒品指南，網(wǎng)友們開始研究如何讓GPT“越獄”。顯然，AI模型并非訓(xùn)練好了就一勞永逸，像好學(xué)生也可能因?yàn)榻挥巡簧鞫腥魞扇恕?/p>

12 全文共 2 頁下一頁

關(guān)閉

OpenAI找到控制AI善惡的開關(guān) 揭秘AI的“人格分裂”

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)