3 月 31 日消息,今日在新一期百度 AI DAY 上,文小言宣布完成品牌煥新與功能升級(jí)。除品牌視覺(jué)形象煥新外,文小言聚焦模型開(kāi)放與功能創(chuàng)新,支持多模型融合調(diào)度,升級(jí)全新語(yǔ)音大模型、圖片問(wèn)答、AI 生圖生視頻等多項(xiàng)能力。
文小言此次升級(jí)的核心亮點(diǎn)在于“多模型融合調(diào)度”。通過(guò)整合百度自研的文心 X1、文心 4.5 等模型,并接入 DeepSeek-R1、可靈等第三方優(yōu)質(zhì)模型,文小言實(shí)現(xiàn)了多模型間的智能協(xié)同。用戶只需選擇“自動(dòng)模式”,即可一鍵調(diào)用最優(yōu)模型組合,或根據(jù)需求靈活選擇單一模型完成特定任務(wù),大幅提升響應(yīng)速度與任務(wù)處理能力。
據(jù)了解,此次功能升級(jí),文小言進(jìn)一步提升了全新語(yǔ)音大模型、圖片問(wèn)答、AI 生圖生視頻等能力。全新語(yǔ)音大模型支持方言對(duì)話、復(fù)雜知識(shí)問(wèn)答及隨時(shí)打斷等場(chǎng)景,用戶可進(jìn)行語(yǔ)音知識(shí)問(wèn)答或趣味角色扮演。
百度語(yǔ)音首席架構(gòu)師賈磊透露,該模型是百度在業(yè)界首個(gè)推出、基于全新互相關(guān)注意力 (Cross-Attention) 的端到端語(yǔ)音語(yǔ)言大模型。在語(yǔ)音場(chǎng)景滿足一定交互指標(biāo)下,大模型調(diào)用成本比行業(yè)平均降低 50%-90%,推理響應(yīng)速度極快,將語(yǔ)音交互等待時(shí)間壓縮至 1 秒左右,極大提升了交互流暢性。同時(shí),在大模型加持下,實(shí)現(xiàn)了流式逐字的 LLM 驅(qū)動(dòng)的多情感語(yǔ)音合成,情感飽滿、逼真、擬人,交互聽(tīng)感也得到極大提升。
圖片問(wèn)答功能讓用戶可以通過(guò)拍攝或上傳圖片,以文字或語(yǔ)音提問(wèn)直接獲取深度解析。例如,拍攝一道數(shù)學(xué)題可實(shí)時(shí)生成解題思路與視頻解析;上傳多款商品圖可對(duì)比參數(shù)、價(jià)格,輔助購(gòu)物決策;拍攝杯子設(shè)計(jì)圖后,AI 可自動(dòng)解析風(fēng)格并生成同款手機(jī)殼、支架等周邊產(chǎn)品。
值得一提的是,新增的“圖個(gè)冷知識(shí)”功能更富趣味性,用戶可預(yù)設(shè)“歷史學(xué)者”“科技達(dá)人”等人設(shè)視角,為同一圖片賦予多維解讀。例如,當(dāng)用戶詢問(wèn)“貓窗探秘,為何貓愛(ài)窗邊的科學(xué)真相?",文小言能從狩獵本能、能量獲取、領(lǐng)地意識(shí)等角度給出獨(dú)特解讀。
本文鏈接:http://www.tebozhan.com/showinfo-45-11834-0.html百度文小言官宣支持多模型調(diào)度,升級(jí)端到端語(yǔ)音大模型、圖片問(wèn)答能力
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 百度端到端語(yǔ)音語(yǔ)言大模型發(fā)布,成本宣稱最高降 90%
下一篇: 5.28 億融資砸向杭州具身智能公司:清華叉院機(jī)器人天才坐鎮(zhèn),被稱為“中國(guó)版 Figure”