亞馬遜近日震撼發(fā)布了一款名為Nova Sonic的先進生成式AI語音模型,該模型能夠直接處理并生成自然流暢的語音,標(biāo)志著亞馬遜在AI語音技術(shù)上的重大突破。
據(jù)悉,Nova Sonic在速度、語音識別及對話質(zhì)量等核心指標(biāo)測試中,展現(xiàn)出了與OpenAI和谷歌頂尖語音模型相抗衡的實力。這一成就不僅是亞馬遜對諸如ChatGPT語音模式等新興AI語音模型的有力回應(yīng),也預(yù)示著AI語音交互新時代的到來。
相較于亞馬遜早期的Alexa模型,Nova Sonic在語音交互上更加自然流暢,為用戶帶來了全新的體驗。通過亞馬遜的Bedrock開發(fā)者平臺,用戶可輕松接入Nova Sonic,該平臺專為構(gòu)建企業(yè)級AI應(yīng)用而設(shè)計。Nova Sonic采用了一個創(chuàng)新的雙向流式API,進一步提升了其應(yīng)用靈活性和便捷性。
亞馬遜在新聞稿中自豪地宣稱,Nova Sonic是市場上“最具成本效益”的AI語音模型,其價格相比OpenAI的GPT-4o模型便宜了約80%。這一價格優(yōu)勢無疑將吸引更多開發(fā)者選擇Nova Sonic作為他們的AI語音解決方案。
據(jù)亞馬遜高級副總裁兼人工通用智能(AGI)部門首席科學(xué)家羅希特·普拉薩德介紹,Nova Sonic的部分組件已經(jīng)為亞馬遜升級版數(shù)字語音助手Alexa+提供了強大動力。普拉薩德還表示,與競爭對手的AI語音模型相比,Nova Sonic在路由用戶請求到不同API方面表現(xiàn)出色,能夠智能地判斷何時需要從互聯(lián)網(wǎng)獲取實時信息、解析專有數(shù)據(jù)源或在外部應(yīng)用程序中采取行動。
在雙向?qū)υ拡鼍爸校琋ova Sonic展現(xiàn)出了極高的智能性。它會等待“合適的時機”發(fā)言,充分考慮說話者的停頓和打斷等情況,使得對話更加自然流暢。Nova Sonic還能為用戶的語音生成文本記錄,這些文本記錄可被開發(fā)者用于各種應(yīng)用場景,進一步拓展了其應(yīng)用潛力。
在語音識別方面,Nova Sonic同樣表現(xiàn)出色。據(jù)普拉薩德介紹,Nova Sonic的語音識別錯誤率比其他AI語音模型更低,即使在用戶咕噥、說錯話或處于嘈雜環(huán)境中時,也能準確理解用戶的意圖。在一項跨語言和方言的語音識別基準測試——多語言LibriSpeech中,Nova Sonic在英語、法語、意大利語、德語和西班牙語上的平均單詞錯誤率(WER)僅為4.2%,這一成績令人矚目。
在衡量多人參與的高音量互動基準測試——增強多方互動中,Nova Sonic也展現(xiàn)出了卓越的性能。亞馬遜稱,Nova Sonic在單詞錯誤率方面比OpenAI的GPT-4o-transcribe模型準確率高出46.7%。同時,Nova Sonic還擁有行業(yè)領(lǐng)先的速度,其平均感知延遲為1.09秒,比OpenAI為實時API提供動力的GPT-4o模型更快。
Nova Sonic的發(fā)布是亞馬遜構(gòu)建人工通用智能(AGI)這一更廣泛戰(zhàn)略的重要組成部分。普拉薩德表示,亞馬遜計劃推出更多能夠理解不同模態(tài)(包括圖像、視頻和語音)的AI模型,以及“其他在將事物引入物理世界時相關(guān)的感官數(shù)據(jù)”。這一戰(zhàn)略無疑將推動亞馬遜在AI領(lǐng)域的持續(xù)創(chuàng)新和領(lǐng)先。
本文鏈接:http://www.tebozhan.com/showinfo-45-12089-0.html亞馬遜發(fā)布Nova Sonic語音模型,挑戰(zhàn)OpenAI與谷歌前沿技術(shù)
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com