在人工智能技術日新月異的今天,百度再次引領了語音交互領域的創新風潮。近日,百度正式推出了業界首個基于全新互相關注意力(Cross-Attention)機制的端到端語音語言大模型,并率先在其產品文小言中上線,供用戶免費體驗。
此次升級后的文小言,以“超逼真語音交互、超低時延響應、超低成本應用”三大亮點吸引了廣泛關注。其不僅能準確識別并回應重慶、廣西、河南、廣東、山東等地的特色方言,還能在對話中融入豐富的情感,使交互體驗更加自然流暢。在時延方面,文小言將用戶等待時間從行業普遍的3-5秒縮短至約1秒,幾乎與真人對話無異。而在成本上,該模型在電話語音頻道的問答場景中,調用成本較行業平均水平降低了50%-90%。
據百度語音首席架構師介紹,該語音語言大模型能夠部署在L20卡上,在滿足語音交互延遲要求的前提下,雙L20卡的并發處理能力可達數百以上。模型的訓練流程也極為便捷,基于文心大模型,僅需數百張卡優化一周即可完成,且優化工作并不復雜。
文小言不僅集成了包括天氣查詢、日歷查詢、單位換算、股票股價查詢等在內的38個垂類助手,實現了高效的信息獲取,還能應對時效性和非時效性問題。無論是百科查詢、時政知識類問答,還是常識問答,文小言都能迅速給出精準答復。更重要的是,文小言能夠與用戶進行情感充沛的交流,快速響應反饋,實現了逼真擬人的交互效果。
在實際應用中,文小言展現了其強大的方言識別能力和多輪交互能力。例如,在面對小朋友多次打斷的情況下,文小言能夠準確識別其需求,并適時給出有情感的回復,營造出自然對話的氛圍。當用戶提到心情不好時,文小言的語音中透露出擔心,并引導用戶說出原因進行開導,展現了其作為情感陪伴者的潛力。
百度此次推出的端到端語音語言大模型,在技術創新方面取得了顯著突破。作為業界首個基于Cross-Attention跨模態的語音語言大模型,該模型將Encoder與語音識別結合,使KV計算效率提升至十分之一。同時,Encoder與語音合成結合,實現了輸出內容的情感控制。百度還研發了高效的全查詢注意力EALLQA技術,進一步降低了KV cache的使用量。
在模型訓練過程中,百度采用了自蒸餾方式進行post-train訓練,以成熟的文心語言預訓練模型為基礎,成功訓練出了Cross-Attention端到端語音語言大模型。這一創新性的跨模態建模技術,實現了語音識別與大語言模型的深度融合,為語音交互領域帶來了革命性的變化。
在成本方面,該模型實現了低成本訓練和低成本高速推理。通過流式逐字的LLM驅動的多情感語音合成技術,模型能夠快速響應并給出有情感的回復。這一技術的應用,使得語音交互場景的應用潛力大幅提升,為大規模工業化應用提供了可能。
百度在語音識別領域的深厚積累,為此次創新提供了堅實的基礎。從Deep Peak 2模型到流式多級的截斷注意力模型SMLTA,再到基于歷史信息抽象的流式截斷conformer建模技術SMLTA2,百度不斷突破技術瓶頸,推動了語音識別技術的快速發展。此次端到端語音語言大模型的推出,更是將百度在語音交互領域的技術優勢發揮到了極致。
為了推動語音語言模型的規模化應用,百度已將其上線至文小言并免費開放。未來,該模型還將接入呼叫中心、音箱等業務線上,為更多用戶提供高效便捷的語音交互體驗。百度表示,將持續開放其技術創新成果,推動大語言模型在語音領域的應用,促進整個行業和生態的發展。
本文鏈接:http://www.tebozhan.com/showinfo-45-11851-0.html百度語音大模型革新上線:對話超逼真,成本大降,1秒快答
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com