1月,OpenAI宣布進(jìn)軍AI智能體領(lǐng)域,中國(guó)公司智譜也推出了新版的GLM-PC 1.1。從回答問(wèn)題到執(zhí)行任務(wù),AI智能體的發(fā)展進(jìn)入了新的階段。
當(dāng)?shù)貢r(shí)間1月23日,美國(guó)人工智能公司OpenAI推出了首款A(yù)I智能體Operator。這款智能體能夠模擬人類(lèi)操作瀏覽器完成購(gòu)物、訂餐、論文整理等任務(wù),通過(guò)融合視覺(jué)識(shí)別與高級(jí)推理的CUA模型實(shí)現(xiàn)復(fù)雜步驟規(guī)劃。工作流程中,Operator會(huì)根據(jù)需求捕獲屏幕畫(huà)面,通過(guò)GPT-4o的視覺(jué)能力理解界面內(nèi)容,再依靠強(qiáng)化學(xué)習(xí)制定下一步計(jì)劃,并使用虛擬鼠標(biāo)和鍵盤(pán)執(zhí)行點(diǎn)擊、滾動(dòng)或輸入等操作,直至任務(wù)完成或需要用戶輸入。目前,Operator將以每月200美元的訂閱費(fèi)面向美國(guó)ChatGPT Pro用戶開(kāi)放測(cè)試。
同一天,中國(guó)公司智譜AI發(fā)布了去年12月公布的AI智能體GLM-PC 1.0的升級(jí)版——GLM-PC 1.1。本次更新優(yōu)化了多種任務(wù)流程,不僅能夠自動(dòng)處理文件、發(fā)送定制化微信內(nèi)容,還借鑒了人類(lèi)左右腦分工的概念,以“左腦邏輯+右腦感知”的雙引擎架構(gòu)實(shí)現(xiàn)多模態(tài)交互,甚至生成代碼與視頻內(nèi)容,展示了超越文本生成的操作層突破。智譜公眾號(hào)文章演示了在淘寶中一鍵加購(gòu)辣條等產(chǎn)品、截取小紅書(shū)春節(jié)檔圖片轉(zhuǎn)發(fā)微信群聊并詢(xún)問(wèn)觀看意愿、以及給群聊成員每人單獨(dú)發(fā)送一段2025年新春祝福語(yǔ)和AI自動(dòng)生成的蛇年主題圖片。這些新春祝福甚至可以按照每個(gè)人的名字進(jìn)行定制發(fā)送。
新版GLM-PC的背后是智譜自主研發(fā)的多模態(tài)模型CogAgent與代碼模型CodeGeex的深度融合。該系統(tǒng)以代碼形式指揮工作流程和工具調(diào)用,強(qiáng)化了深度思考模式下的規(guī)劃、推理、反思能力,從而能夠穩(wěn)定高效地應(yīng)對(duì)復(fù)雜場(chǎng)景與任務(wù)。實(shí)際執(zhí)行時(shí),GLM-PC能感知多層環(huán)境反饋,協(xié)助反思,以有效自我糾正與優(yōu)化。
目前,通用人工智能技術(shù)已進(jìn)入L3級(jí)(智能體)階段,核心競(jìng)爭(zhēng)圍繞各家企業(yè)模型的自主操作能力展開(kāi)。除了OpenAI和智譜,谷歌、微軟、Anthropic以及國(guó)內(nèi)多家AI公司也都相繼推出類(lèi)似產(chǎn)品。上海人工智能產(chǎn)業(yè)研究院院長(zhǎng)朱兆穎預(yù)測(cè),AI智能體將是生成式AI的下一個(gè)前沿,預(yù)計(jì)2025年市場(chǎng)規(guī)模將達(dá)100億美元以上,2025年將成為AI智能體大放異彩的應(yīng)用元年。