1月5日,據(jù)外媒The Information報道,OpenAI計(jì)劃于2026年第一季度推出全新的語音AI模型,并預(yù)計(jì)在一年后發(fā)布首款完全通過語音指令操控的個人設(shè)備。這款設(shè)備可能是OpenAI CEO薩姆·阿爾特曼在2025年11月21日訪談中提到的AI硬件產(chǎn)品矩陣的一部分。除了單一產(chǎn)品外,OpenAI還在規(guī)劃一整套設(shè)備矩陣,可能包括智能眼鏡和無屏幕智能音箱等。
多位ChatGPT員工透露,目前OpenAI的語音AI模型在回復(fù)準(zhǔn)確性和響應(yīng)速度上明顯落后于文本模型。為此,OpenAI在過去兩個月內(nèi)整合了多個工程、產(chǎn)品和研究團(tuán)隊(duì),對語音AI進(jìn)行了一次全面重構(gòu)。新模型將在音質(zhì)、延遲和交互方式上進(jìn)一步逼近真實(shí)對話體驗(yàn),甚至能夠在用戶說話的同時進(jìn)行語音播報,呈現(xiàn)更接近“對話伙伴”的狀態(tài)。
回顧OpenAI在語音方向上的技術(shù)演進(jìn),2022年其推出的Whisper是一套以高準(zhǔn)確率著稱的自動語音識別系統(tǒng),主要解決“聽懂人說話”的問題;2025年,OpenAI發(fā)布了GPT-realtime語音轉(zhuǎn)語音模型,開始探索低延遲、連續(xù)對話式的語音交互。這一系列嘗試為全新一代語音AI模型的架構(gòu)重塑奠定了基礎(chǔ)。新一代模型在架構(gòu)層面進(jìn)行了調(diào)整,能夠生成聽感更自然、情緒更豐富的語音回復(fù),同時在回答深度和準(zhǔn)確性上也有明顯提升。與現(xiàn)有模型相比,新的語音AI模型可以實(shí)現(xiàn)與用戶“同步說話”,并在對話中更好地應(yīng)對打斷和插話。這種實(shí)時、連續(xù)的語音交互能力是當(dāng)前語音AI模型尚未具備的。
驅(qū)動語音AI模型的底層大型語言模型與當(dāng)前驅(qū)動ChatGPT文本回復(fù)的模型并不完全相同。語音AI項(xiàng)目的關(guān)鍵負(fù)責(zé)人之一是昆丹·庫馬爾,他是一名語音AI研究員,今年夏天從美國AI聊天機(jī)器人獨(dú)角獸公司Character.AI加入OpenAI,負(fù)責(zé)主導(dǎo)相關(guān)工作。項(xiàng)目核心成員還包括產(chǎn)品研究主管本·紐豪斯和多模態(tài)ChatGPT的產(chǎn)品經(jīng)理杰基·香農(nóng)。
當(dāng)手機(jī)廠商們還在卷影像、拼性能時,小米17 Pro突然推出了一塊覆蓋整個后攝模組的「妙享背屏」,官方宣稱“多一面更精彩”
2025-09-26 09:39:29小米17Pro系列背屏玩法全解