AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁(yè) > 科技  > 軟件

T·Club技術(shù)開(kāi)放日杭州站精彩回顧:音視頻技術(shù)創(chuàng)新探索與應(yīng)用實(shí)踐 T·Club

來(lái)源: 責(zé)編: 時(shí)間:2023-09-18 21:40:30 325觀看
導(dǎo)讀近日,51CTO面向區(qū)域城市,重磅推出的技術(shù)沙龍T·Club技術(shù)開(kāi)放日杭州站成功舉辦!8月26日,杭州站技術(shù)沙龍以“音視頻技術(shù)創(chuàng)新探索與應(yīng)用實(shí)踐”為主題,邀請(qǐng)到來(lái)自快手、火山語(yǔ)音、網(wǎng)易云音樂(lè)和Rokid四位大型互聯(lián)網(wǎng)企業(yè)技術(shù)專(zhuān)家

近日,51CTO面向區(qū)域城市,重磅推出的技術(shù)沙龍T·Club技術(shù)開(kāi)放日杭州站成功舉辦!6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

8月26日,杭州站技術(shù)沙龍以“音視頻技術(shù)創(chuàng)新探索與應(yīng)用實(shí)踐”為主題,邀請(qǐng)到來(lái)自快手、火山語(yǔ)音、網(wǎng)易云音樂(lè)和Rokid四位大型互聯(lián)網(wǎng)企業(yè)技術(shù)專(zhuān)家,從音視頻質(zhì)量、語(yǔ)音識(shí)別模型、用戶(hù)視聽(tīng)體驗(yàn)以及音視頻技術(shù)在AR場(chǎng)景落地等維度出發(fā),結(jié)合自身企業(yè)業(yè)務(wù)和應(yīng)用,分享了音視頻技術(shù)在不同應(yīng)用場(chǎng)景的落地實(shí)踐,使在場(chǎng)的開(kāi)發(fā)者們受益匪淺。6eF28資訊網(wǎng)——每日最新資訊28at.com

1、KVQ:基于AI的快手視頻質(zhì)量評(píng)價(jià)

6eF28資訊網(wǎng)——每日最新資訊28at.com

快手圖像視頻處理分析負(fù)責(zé)人孫明首先為大家分享了主題為“KVQ:基于AI的快手視頻質(zhì)量評(píng)價(jià)”的演講。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

快手平臺(tái)視頻內(nèi)容豐富多樣,這些視頻記錄了世界,分享了不同的生活方式,與此同時(shí)也面臨著視頻質(zhì)量參差不齊的問(wèn)題。業(yè)界常見(jiàn)的工具并不能滿(mǎn)足UGC場(chǎng)景的需求,如何全面有效評(píng)估畫(huà)質(zhì)是一個(gè)亟待解決的問(wèn)題。而快手視頻質(zhì)量模型KVQ,可以針對(duì)復(fù)雜的視頻內(nèi)容和低質(zhì)成因提供一致性的客觀質(zhì)量打分,從而能有效監(jiān)控UGC視頻全生命周期的清晰度狀況。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

孫明團(tuán)隊(duì)基于先驗(yàn)的弱標(biāo)注方法 (PC、PG) ,以較低的成本構(gòu)建了一個(gè)千萬(wàn)級(jí)的異構(gòu)數(shù)據(jù)集,其中異構(gòu)包括單刺激標(biāo)注(SS)、樣本對(duì)標(biāo)注(PC)、先驗(yàn)樣本對(duì)標(biāo)注(PG)這三種數(shù)據(jù),并針對(duì)海量數(shù)據(jù)提出QPT訓(xùn)練方式。  6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

首先,團(tuán)隊(duì)引入模擬線(xiàn)上生產(chǎn)消費(fèi)鏈路的退化方式(Degradation Type)進(jìn)行質(zhì)量數(shù)據(jù)的生成,覆蓋各種場(chǎng)景,且利用退化空間包含的2x107 種組合形式,對(duì)應(yīng)生成千萬(wàn)級(jí)別的無(wú)標(biāo)簽畫(huà)質(zhì)數(shù)據(jù),進(jìn)而利用PG生成的數(shù)據(jù)做對(duì)比學(xué)習(xí),來(lái)構(gòu)建無(wú)監(jiān)督訓(xùn)練模型;其次,團(tuán)隊(duì)進(jìn)一步引入無(wú)監(jiān)督學(xué)習(xí)(Self-supervised Learning),提出QPT預(yù)訓(xùn)練方式,通過(guò)質(zhì)量維度的相關(guān)性來(lái)獲取畫(huà)質(zhì)特征,提升跨場(chǎng)景感知能力,奠定了異構(gòu)數(shù)據(jù)建模的基礎(chǔ)。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

同時(shí),無(wú)監(jiān)督學(xué)習(xí)在公開(kāi)數(shù)據(jù)集上將SOTA提升5%,快手場(chǎng)景下平均提升10%;最后,團(tuán)隊(duì)引入多任務(wù)學(xué)習(xí)(Multi-task Learning),將上述基于PG數(shù)據(jù)預(yù)訓(xùn)練的模型作為初始化權(quán)重,針對(duì)SS標(biāo)注數(shù)據(jù)采用回歸損失函數(shù),針對(duì)PC數(shù)據(jù)采用排序損失函數(shù)進(jìn)行優(yōu)化,從而用SS+PC數(shù)據(jù)聯(lián)合訓(xùn)練的方式對(duì)質(zhì)量數(shù)據(jù)進(jìn)行利用,發(fā)揮大模型的真正效用,使得模型在不同分?jǐn)?shù)段的預(yù)測(cè)保序性得到顯著提升,快手場(chǎng)景下平均SRCC提升5%。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

此外,快手音視頻技術(shù)團(tuán)隊(duì)對(duì)快手視頻失真分布情況也進(jìn)行了分析與思考,并發(fā)現(xiàn)一個(gè)比較重要的現(xiàn)象,將其稱(chēng)之為多峰效應(yīng),即畫(huà)質(zhì)在時(shí)序上呈現(xiàn)多峰分布。團(tuán)隊(duì)提出多分支時(shí)序網(wǎng)絡(luò),并行KL注意力機(jī)制模塊,高效建模時(shí)空分布存在差異的不同失真類(lèi)型,有效應(yīng)對(duì)針對(duì)視頻分類(lèi)任務(wù)設(shè)計(jì)的通用Transformer結(jié)構(gòu)采樣較為均勻,不能有效建模少數(shù)包含失真幀的技術(shù)難點(diǎn),使公開(kāi)數(shù)據(jù)集上提升3%,快手場(chǎng)景下提升5%,并且針對(duì)720P/30s/30FPS的視頻,處理僅需0.5s,在快手點(diǎn)播或直播能每日?qǐng)?zhí)行約7500萬(wàn)次視頻質(zhì)量評(píng)價(jià)。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

快手質(zhì)量分析大模型KVQ也成為業(yè)界首次構(gòu)建千萬(wàn)級(jí)別的異構(gòu)標(biāo)注VQA數(shù)據(jù)集、業(yè)界首個(gè)QPT預(yù)訓(xùn)練模型,提升跨場(chǎng)景感知能力及業(yè)界首次在UGC場(chǎng)景勝過(guò)商用軟件,并大規(guī)模落地的視頻質(zhì)量分析大模型。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

(完整分享視頻請(qǐng)點(diǎn)擊閱讀原文查看)(完整分享視頻請(qǐng)點(diǎn)擊閱讀原文查看)6eF28資訊網(wǎng)——每日最新資訊28at.com

2、端到端語(yǔ)音識(shí)別中的語(yǔ)言模型融合技術(shù)創(chuàng)新與落地實(shí)踐

6eF28資訊網(wǎng)——每日最新資訊28at.com

語(yǔ)言模型融合是端到端語(yǔ)音識(shí)別模型實(shí)現(xiàn)領(lǐng)域自適應(yīng)的核心技術(shù)。近年來(lái),“內(nèi)部語(yǔ)言模型估計(jì)”(Internal Language Model Estimation, ILME)方法顯著提升了語(yǔ)言模型融合的性能。火山語(yǔ)音針對(duì)ILME技術(shù)提出了一系列算法改進(jìn),語(yǔ)音識(shí)別算法研究員陳智鵬就基于此話(huà)題為技術(shù)沙龍的開(kāi)發(fā)者們帶來(lái)了主題為“端到端語(yǔ)音識(shí)別中的語(yǔ)言模型融合技術(shù)創(chuàng)新與落地實(shí)踐”的演講。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

傳統(tǒng)的語(yǔ)言模型是基于深度神經(jīng)網(wǎng)絡(luò)的Hybrid語(yǔ)音識(shí)別模型,是將聲學(xué)模型和語(yǔ)言模型獨(dú)立建模,在解碼時(shí),再把兩部分的分?jǐn)?shù)相加,形成聯(lián)合解碼。在通用的語(yǔ)音識(shí)別場(chǎng)景中,語(yǔ)音識(shí)別發(fā)揮了重要作用,但對(duì)于一些垂直領(lǐng)域或者專(zhuān)業(yè)術(shù)語(yǔ),它的準(zhǔn)確率并不理想,且單獨(dú)訓(xùn)練ASR模型的算力成本很高。為了進(jìn)一步改善智能字幕的用戶(hù)體驗(yàn),并節(jié)省ASR模型訓(xùn)練的算力成本和數(shù)據(jù)成本,在語(yǔ)音識(shí)別里做語(yǔ)言模型的融合成為一項(xiàng)技術(shù)改進(jìn)重點(diǎn)。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

火山語(yǔ)音團(tuán)隊(duì)逐個(gè)擊破當(dāng)前技術(shù)方案中存在的問(wèn)題,面對(duì)經(jīng)典ILME方法直接將context vector置0,在一些模型上效果不佳的問(wèn)題,提出標(biāo)簽同步的上下文向量學(xué)習(xí)方法,把解碼過(guò)程中每一步中間的隱狀態(tài)H送到一個(gè)非常小、非常輕量FFN網(wǎng)絡(luò)里,并讓這個(gè)網(wǎng)絡(luò)學(xué)會(huì)預(yù)測(cè)一個(gè)合理的C,再將合理的C送回,達(dá)到優(yōu)化內(nèi)部語(yǔ)言模型估計(jì)的目的。因?yàn)镕FN網(wǎng)絡(luò)可以做到非常小,所以對(duì)于整體的計(jì)算量也沒(méi)有太明顯的影響。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

此外,面對(duì)融合垂直領(lǐng)域語(yǔ)言模型之后,對(duì)通用場(chǎng)景識(shí)別效果有負(fù)面影響的問(wèn)題,火山語(yǔ)音團(tuán)隊(duì)提出自適應(yīng)語(yǔ)言模型融合技術(shù);面對(duì)引入外部和內(nèi)部語(yǔ)言模型之后,推理計(jì)算量大幅增加,成本上漲的問(wèn)題,火山語(yǔ)音團(tuán)隊(duì)提出內(nèi)部&外部語(yǔ)言模型壓縮方案。總結(jié)起來(lái),端到端語(yǔ)音識(shí)別的語(yǔ)言模型融合技術(shù)方面,主要有三個(gè)維度的工作,分別是效果更好、更加實(shí)用和成本更低。6eF28資訊網(wǎng)——每日最新資訊28at.com

3、用戶(hù)視聽(tīng)體驗(yàn)的優(yōu)化實(shí)踐

6eF28資訊網(wǎng)——每日最新資訊28at.com

隨著視聽(tīng)終端設(shè)備(IoT)和AI技術(shù)的發(fā)展,用戶(hù)能體驗(yàn)到極致的視聽(tīng)體驗(yàn)可能性得到拓展,網(wǎng)易云音樂(lè)音視頻實(shí)驗(yàn)室負(fù)責(zé)人劉華平帶來(lái)了以“用戶(hù)視聽(tīng)體驗(yàn)的優(yōu)化實(shí)踐”為主題的演講,分享了通過(guò)解構(gòu)音樂(lè)流媒體平臺(tái)視聽(tīng)場(chǎng)景中端到端的視聽(tīng)體驗(yàn)鏈路環(huán)節(jié),分析影響視聽(tīng)的各個(gè)要素并介紹保障高質(zhì)量視聽(tīng)的相關(guān)實(shí)施技術(shù)細(xì)節(jié)。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

圖片6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

在話(huà)題分享之前,劉華平為大家介紹了一些有關(guān)音質(zhì)的概念,包括量化位數(shù)、聲道、音質(zhì)評(píng)估等。隨后劉華平從數(shù)字音樂(lè)典型應(yīng)用場(chǎng)景鏈路:流式點(diǎn)播場(chǎng)景切入,就內(nèi)容源、播放引擎、后處理、觀眾側(cè)這四個(gè)流式點(diǎn)播鏈路展開(kāi),為大家分享了其團(tuán)隊(duì)為提升音質(zhì)在各環(huán)節(jié)所做的努力。其中,對(duì)內(nèi)容源進(jìn)行分析處理,包括真假無(wú)損檢測(cè)、噪聲檢測(cè)、內(nèi)容補(bǔ)全等,以確保源內(nèi)容的質(zhì)量;播放引擎最關(guān)鍵的目的是保證解碼沒(méi)有損失,同時(shí)支持一些HiFi的特性。在進(jìn)行解碼方案調(diào)整時(shí),還會(huì)考慮到不同播放設(shè)備、不同聽(tīng)覺(jué)曲線(xiàn)對(duì)音質(zhì)的影響。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

此外,除了點(diǎn)播場(chǎng)景,劉華平還向大家介紹了云音樂(lè)里面的直播場(chǎng)景,主要包括主播側(cè)、網(wǎng)絡(luò)和觀眾側(cè)等三個(gè)環(huán)節(jié)。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

在主播側(cè),劉華平團(tuán)隊(duì)就聲音采集、處理、編碼等環(huán)節(jié)進(jìn)行了優(yōu)化。例如,針對(duì)高質(zhì)量手機(jī)聲音采集問(wèn)題,劉華平提出四點(diǎn)優(yōu)化方向:6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

(1)錄制采集率選擇:

手機(jī)硬件有默認(rèn)采樣率,這個(gè)采樣率下工作是最優(yōu)的,設(shè)置其他采樣率的音頻會(huì)從默認(rèn)的采樣率重采樣到目標(biāo)采樣率,所以按實(shí)際需求,一般直接選擇默認(rèn)采樣率。一般老機(jī)器可能是44100,但是新機(jī)器大部分是48000。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

(2)錄制接口選擇:

通常需要選擇最常用的錄制接口,也是測(cè)試最多的接口,這樣穩(wěn)定性最好,兼容性也最好。且能保證錄制的音頻沒(méi)有兼容性問(wèn)題而導(dǎo)致的噪音或者左右聲道聲音完全不對(duì)的問(wèn)題。Android 一般選擇 Java的audiorecord, iOS一般選擇audiounit。這兩個(gè)目前兼容性最好的錄制接口。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

(3)錄制線(xiàn)程優(yōu)化:

主要有兩點(diǎn),主要的目的就是保證錄制不受性能影響,不丟數(shù)據(jù),保證數(shù)據(jù)完整性。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

(4)錄制參數(shù)選擇:

OS錄制設(shè)置的模式可以選擇AVAudioSessionModeDefault,默認(rèn)模式兼容所有category;6eF28資訊網(wǎng)——每日最新資訊28at.com

AVAudioSessionModeVoiceChat適用于語(yǔ)音聊天VoIP;6eF28資訊網(wǎng)——每日最新資訊28at.com

AVAudioSessionModeGameChat適用于游戲模式,不需要主動(dòng)設(shè)置(若不想用GKVoiceChat但希望達(dá)到類(lèi)似功能,可以使用AVAudioSessionModeVoiceChat);6eF28資訊網(wǎng)——每日最新資訊28at.com

AVAudioSessionModeVideoRecording 適用于使用攝像頭采集視頻的應(yīng)用。(完整分享視頻請(qǐng)點(diǎn)擊閱讀原文查看)6eF28資訊網(wǎng)——每日最新資訊28at.com

4、透明視頻在AR場(chǎng)景中的應(yīng)用實(shí)踐

6eF28資訊網(wǎng)——每日最新資訊28at.com

在AR應(yīng)用里,透明視頻屏蔽了無(wú)關(guān)的背景,使用戶(hù)更專(zhuān)注于核心內(nèi)容,也能夠更自然地和場(chǎng)景融合,提升沉浸感。Rokid 應(yīng)用平臺(tái)音視頻負(fù)責(zé)人黨予博便為大家?guī)?lái)了以“透明視頻在AR場(chǎng)景中的應(yīng)用實(shí)踐”為主題的演講,從AR應(yīng)用需要什么樣的視頻體驗(yàn)、透明視頻如何編碼、透明視頻的應(yīng)用場(chǎng)景角度切入話(huà)題,分享了Rokid 應(yīng)用平臺(tái)應(yīng)用透明視頻的實(shí)踐落地與相關(guān)成果。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

在演講中,黨予博首先介紹了AR在工業(yè)上的應(yīng)用,包括通過(guò)AR合影功能來(lái)進(jìn)行空間建圖等,從而總結(jié)出AR應(yīng)用的三個(gè)特征:6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

(1)虛實(shí)融合:將虛擬的物體投入到真實(shí)的場(chǎng)景,增強(qiáng)對(duì)現(xiàn)實(shí)世界的理解;6eF28資訊網(wǎng)——每日最新資訊28at.com

(2)實(shí)時(shí)互動(dòng):增強(qiáng)的內(nèi)容必須滿(mǎn)足實(shí)時(shí)的交互;6eF28資訊網(wǎng)——每日最新資訊28at.com

(3)空間對(duì)齊:幾何一致性、時(shí)間一致性、光照一致性。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

以及AR應(yīng)用視頻的進(jìn)化方向:6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

(1)如何和現(xiàn)實(shí)場(chǎng)景融合;6eF28資訊網(wǎng)——每日最新資訊28at.com

(2)如何實(shí)時(shí)響應(yīng)用戶(hù)操作;6eF28資訊網(wǎng)——每日最新資訊28at.com

(3)展示哪些內(nèi)容,直播、云渲染、三維重建。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

談到透明視頻的編碼,黨予博認(rèn)為這涉及到alpha通道的編碼、傳輸和儲(chǔ)存問(wèn)題。流行的編碼器中,谷歌的Libvpx和蘋(píng)果2009年推出的HEVC with alpha都支持透明視頻的編碼,兩個(gè)編碼器的性能特點(diǎn)存在差異,但黨予博表示透明視頻本身并不重要,重要的是需要探索那些適合用這個(gè)方式展現(xiàn)出來(lái)的內(nèi)容或場(chǎng)景,例如:AR 三方錄制、云端渲染推流、透明視頻直播等應(yīng)用場(chǎng)景。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

總之,AR應(yīng)用對(duì)視頻的要求和其他的視頻并不一樣,AR應(yīng)用需要融合需求,打造沉浸感,實(shí)現(xiàn)實(shí)時(shí)互動(dòng)。AR應(yīng)用的發(fā)展需要我們創(chuàng)建更多內(nèi)容,不斷突破,以此來(lái)豐富AR視頻體驗(yàn),賦能產(chǎn)業(yè)升級(jí),商業(yè)落地。6eF28資訊網(wǎng)——每日最新資訊28at.com

6eF28資訊網(wǎng)——每日最新資訊28at.com

以上是51CTO T·Club技術(shù)沙龍杭州站的大致分享內(nèi)容,完整沙龍視頻請(qǐng)點(diǎn)擊閱讀原文查看。 6eF28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-26-10422-0.htmlT·Club技術(shù)開(kāi)放日杭州站精彩回顧:音視頻技術(shù)創(chuàng)新探索與應(yīng)用實(shí)踐 T·Club

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: AIoTel下視頻編碼(一)--移動(dòng)看家視頻水印溯源技術(shù)

下一篇: 五分鐘技術(shù)趣談 | 業(yè)務(wù)系統(tǒng)常用限流算法淺析

標(biāo)簽:
  • 熱門(mén)焦點(diǎn)
Top