11 月 14 日消息,“訊飛開放平臺”公眾號今天傍晚宣布,訊飛星火多模態交互大模型正式上線,其實現從語音交互拓展到音視頻流實時多模交互,新增“多模態、超擬人和個性化”能力,實現語音、視覺、數字人交互三合一,支持一鍵調用。
據介紹,訊飛星火多模態交互大模型首發超擬人數字人技術,數字人軀干和四肢動作能夠精準匹配語音內容,快速生成表情和動作,令 AI“栩栩如生”。通過統一文本、語音和表情,能夠實現跨模態的語義一致性,從而使大模型情感表達真實連貫。
其支持超擬人極速交互,采用統一神經網絡直接實現語音到語音的端到端建模,響應更快速、流暢,可敏銳感知情緒變化,也可根據指令自由變換聲音的節奏、大小和人設。
其支持多模態視覺交互,能夠“聽懂世界”“認清萬物”,更全面感知具體背景場景、物流狀態等信息,對任務的理解更加精準,并通過語音、手勢、行為、情緒等進行綜合判斷,作出合適的回復。
據此前報道,用戶可與數字人進行語音、視頻通話,數字人可實現與用戶的自然語音對話,人物表情等也能夠匹配說話的語句。星火超擬人數字人還支持多模態交互,可讓數字人識別攝像頭中的內容,比如孫悟空和奧特曼站在一起、面霜的品牌和作用、花的品類等。
本文鏈接:http://www.tebozhan.com/showinfo-45-9442-0.html訊飛星火多模態交互大模型上線,數字人、語音、視覺支持一鍵調用
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com