OpenAI押注無屏交互語音AI設(shè)備新突破

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2026-01-05 20:52:15 智東西

1月5日，據(jù)外媒The Information報道，OpenAI計(jì)劃于2026年第一季度推出全新的語音AI模型，并預(yù)計(jì)在一年后發(fā)布首款完全通過語音指令操控的個人設(shè)備。這款設(shè)備可能是OpenAI CEO薩姆·阿爾特曼在2025年11月21日訪談中提到的AI硬件產(chǎn)品矩陣的一部分。除了單一產(chǎn)品外，OpenAI還在規(guī)劃一整套設(shè)備矩陣，可能包括智能眼鏡和無屏幕智能音箱等。

多位ChatGPT員工透露，目前OpenAI的語音AI模型在回復(fù)準(zhǔn)確性和響應(yīng)速度上明顯落后于文本模型。為此，OpenAI在過去兩個月內(nèi)整合了多個工程、產(chǎn)品和研究團(tuán)隊(duì)，對語音AI進(jìn)行了一次全面重構(gòu)。新模型將在音質(zhì)、延遲和交互方式上進(jìn)一步逼近真實(shí)對話體驗(yàn)，甚至能夠在用戶說話的同時進(jìn)行語音播報，呈現(xiàn)更接近“對話伙伴”的狀態(tài)。

回顧OpenAI在語音方向上的技術(shù)演進(jìn)，2022年其推出的Whisper是一套以高準(zhǔn)確率著稱的自動語音識別系統(tǒng)，主要解決“聽懂人說話”的問題；2025年，OpenAI發(fā)布了GPT-realtime語音轉(zhuǎn)語音模型，開始探索低延遲、連續(xù)對話式的語音交互。這一系列嘗試為全新一代語音AI模型的架構(gòu)重塑奠定了基礎(chǔ)。新一代模型在架構(gòu)層面進(jìn)行了調(diào)整，能夠生成聽感更自然、情緒更豐富的語音回復(fù)，同時在回答深度和準(zhǔn)確性上也有明顯提升。與現(xiàn)有模型相比，新的語音AI模型可以實(shí)現(xiàn)與用戶“同步說話”，并在對話中更好地應(yīng)對打斷和插話。這種實(shí)時、連續(xù)的語音交互能力是當(dāng)前語音AI模型尚未具備的。

驅(qū)動語音AI模型的底層大型語言模型與當(dāng)前驅(qū)動ChatGPT文本回復(fù)的模型并不完全相同。語音AI項(xiàng)目的關(guān)鍵負(fù)責(zé)人之一是昆丹·庫馬爾，他是一名語音AI研究員，今年夏天從美國AI聊天機(jī)器人獨(dú)角獸公司Character.AI加入OpenAI，負(fù)責(zé)主導(dǎo)相關(guān)工作。項(xiàng)目核心成員還包括產(chǎn)品研究主管本·紐豪斯和多模態(tài)ChatGPT的產(chǎn)品經(jīng)理杰基·香農(nóng)。

12 全文共 2 頁下一頁

關(guān)閉

OpenAI押注無屏交互 語音AI設(shè)備新突破

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

OpenAI押注無屏交互語音AI設(shè)備新突破