亞馬遜推出了新一代生成式AI語(yǔ)音模型Nova Sonic,在人工智能語(yǔ)音領(lǐng)域取得了重大突破。這款模型能夠處理語(yǔ)音輸入并生成自然流暢的語(yǔ)音輸出,其速度、語(yǔ)音識(shí)別準(zhǔn)確率和對(duì)話質(zhì)量等核心性能指標(biāo)已達(dá)到與OpenAI、谷歌等科技巨頭尖端語(yǔ)音模型相媲美的水平。
Nova Sonic通過(guò)亞馬遜Bedrock開(kāi)發(fā)者平臺(tái)提供服務(wù),采用創(chuàng)新的雙向流式API接口,為企業(yè)級(jí)AI應(yīng)用開(kāi)發(fā)提供了強(qiáng)大支持。該模型在成本效益方面具有顯著優(yōu)勢(shì),價(jià)格比OpenAI的GPT-4便宜約80%,成為市場(chǎng)上最具性價(jià)比的AI語(yǔ)音解決方案之一。
相比競(jìng)爭(zhēng)對(duì)手,Nova Sonic在將用戶請(qǐng)求路由到不同API方面表現(xiàn)出色。它能夠判斷何時(shí)需要從互聯(lián)網(wǎng)獲取實(shí)時(shí)信息、解析專有數(shù)據(jù)源或在外部應(yīng)用程序中采取行動(dòng),并使用合適的工具完成任務(wù)。在雙向?qū)υ捴?,Nova Sonic會(huì)等待合適的時(shí)機(jī)發(fā)言,考慮到說(shuō)話者的停頓和打斷等情況。此外,該模型還能為用戶的語(yǔ)音生成文本記錄,這些文本可以用于各種應(yīng)用場(chǎng)景。
亞馬遜AGI部門首席科學(xué)家羅希特·普拉薩德透露,Nova Sonic的部分技術(shù)已經(jīng)應(yīng)用于升級(jí)版數(shù)字助手Alexa+。該模型的推出是亞馬遜構(gòu)建人工通用智能(AGI)戰(zhàn)略的重要一步,未來(lái)還將推出支持多模態(tài)理解的AI模型,涵蓋圖像、視頻及其他物理世界感知數(shù)據(jù)。
近日,短視頻平臺(tái)上出現(xiàn)了大量“雷軍AI配音”的惡搞視頻。
2024-10-30 10:02:15媒體:“AI換聲”該管管了