7月31日消息,OpenAI于當(dāng)?shù)貢r(shí)間30日宣布,即日起GPT-4o的語(yǔ)音模式(注:Alpha版本)將對(duì)部分ChatGPTPlus用戶開(kāi)放,計(jì)劃在今年秋季將該功能逐步推廣至所有ChatGPT Plus訂閱用戶。
據(jù)ITBEAR科技資訊了解,OpenAI首席技術(shù)官米拉?穆拉蒂(MiraMurati)在早前的演講中闡述了GPT-4o的技術(shù)特點(diǎn)。她指出,GPT-4o是一個(gè)全新的跨文本、視覺(jué)和音頻的端到端統(tǒng)一模型,其特色在于所有的輸入與輸出都由單一的神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)處理。由于這是OpenAI首個(gè)融合多種模式的模型,因此在功能和局限性的探索上,他們還處于初步階段。
原計(jì)劃于今年6月底邀請(qǐng)小部分ChatGPTPlus用戶測(cè)試GPT-4o語(yǔ)音模式的OpenAI,因需要更多時(shí)間來(lái)完善模型并提升其特定內(nèi)容的檢測(cè)和拒絕能力,故官方在6月宣布了測(cè)試推遲的消息。
早期信息顯示,相較于GPT-3.5模型2.8秒的平均語(yǔ)音反饋延遲,GPT-4的5.4秒延遲在語(yǔ)音交互上顯得不足。然而,新一代的GPT-4o預(yù)計(jì)將大幅降低這一延遲,實(shí)現(xiàn)更為流暢的對(duì)話體驗(yàn)。
GPT-4o語(yǔ)音模式的亮點(diǎn)在于其迅速的反應(yīng)速度和高度逼真的聲音。OpenAI更是聲稱,該模式能夠感知語(yǔ)音中的情感語(yǔ)調(diào),包括悲傷、興奮甚至是歌唱。
OpenAI 發(fā)言人林賽?麥卡勒姆(LindsayMcCallum)明確表示:“ChatGPT不會(huì)冒充他人的聲音,無(wú)論是個(gè)人還是公眾人物,且系統(tǒng)會(huì)阻止與預(yù)設(shè)聲音不符的輸出。”這一聲明為GPT-4o在語(yǔ)音交互的真實(shí)性和安全性上提供了保障。
本文鏈接:http://www.tebozhan.com/showinfo-45-6166-0.html實(shí)時(shí)對(duì)話更自然,OpenAI 向部分付費(fèi)訂閱用戶開(kāi)放 GPT-4o 語(yǔ)音模式
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com