當(dāng)前位置：首頁 > 科技 > 知識(shí)百科

基于深度學(xué)習(xí)的文本情感識(shí)別技術(shù)在5G不良消息安全管控平臺(tái)中的應(yīng)用

來源：責(zé)編：時(shí)間：2023-08-07 16:30:24 247觀看

導(dǎo)讀作者｜孫越，單位：中移（杭州）信息技術(shù)有限公司 | 中國移動(dòng)杭州研發(fā)中心Labs 導(dǎo)讀隨著5G網(wǎng)絡(luò)的不斷普及，大量用戶開始接觸并使用5G網(wǎng)絡(luò)。5G網(wǎng)絡(luò)不僅可以傳送傳統(tǒng)網(wǎng)絡(luò)的語音、視頻、

作者｜孫越，單位：中移（杭州）信息技術(shù)有限公司 | 中國移動(dòng)杭州研發(fā)中心

Labs 導(dǎo)讀

隨著5G網(wǎng)絡(luò)的不斷普及，大量用戶開始接觸并使用5G網(wǎng)絡(luò)。5G網(wǎng)絡(luò)不僅可以傳送傳統(tǒng)網(wǎng)絡(luò)的語音、視頻、文本等信息，還可以憑借更加低時(shí)延及高精準(zhǔn)的定位能力，被使用在更多具有實(shí)用價(jià)值的應(yīng)用場景中，如：戰(zhàn)地實(shí)況信息、衛(wèi)星定位導(dǎo)航等等。

網(wǎng)絡(luò)信息時(shí)常會(huì)夾雜不良信息，如涉政信息、涉黃信息、涉黑信息、涉詐信息、商業(yè)廣告消息等，且不良信息數(shù)量呈現(xiàn)逐年上升趨勢，給用戶造成了巨大騷擾。為了凈化網(wǎng)絡(luò)環(huán)境，有效管控不良信息傳播，中國移動(dòng)5G不良消息安全管控平臺(tái)應(yīng)運(yùn)而生。

數(shù)據(jù)來源：中國移動(dòng)集團(tuán)信息安全中心

1、5G不良信息管控平臺(tái)的應(yīng)用場景

該平臺(tái)在面對(duì)繁雜的網(wǎng)絡(luò)信息環(huán)境時(shí)，諸如文本消息、語音信息、視頻信息、富媒體信息等，將信息歸類為：涉政、涉黃、涉黑、涉詐、商業(yè)廣告消息、正常消息等等，再通過對(duì)應(yīng)策略進(jìn)行及時(shí)攔截，并根據(jù)不良消息的嚴(yán)重程度進(jìn)行后續(xù)懲處處理，從根源凈化網(wǎng)絡(luò)環(huán)境，營造良好的網(wǎng)絡(luò)空間。

2、現(xiàn)有5G不良信息管控平臺(tái)的技術(shù)要點(diǎn)

該平臺(tái)主要通過以下幾種方法對(duì)不良信息進(jìn)行攔截：

①設(shè)定一級(jí)關(guān)鍵詞：一級(jí)關(guān)鍵詞通常設(shè)置為一些極度敏感詞匯，若用戶發(fā)送信息中包含一級(jí)關(guān)鍵詞內(nèi)容，即立即攔截該信息，信息內(nèi)容無法下發(fā)，并對(duì)該用戶進(jìn)行標(biāo)記。

②設(shè)定普通關(guān)鍵詞: 普通關(guān)鍵詞設(shè)置為一些較為敏感詞匯，若用戶發(fā)送信息中包含普通關(guān)鍵詞內(nèi)容，且在一定時(shí)間內(nèi)，用戶發(fā)送該敏感消息的次數(shù)超過系統(tǒng)預(yù)先設(shè)定的攔截閾值，則系統(tǒng)會(huì)將用戶拉入黑名單，在一定時(shí)間內(nèi)，該用戶無法使用完整5G網(wǎng)絡(luò)服務(wù)。

③設(shè)定復(fù)雜文本信息監(jiān)控：如用戶發(fā)送PDF文件，其中該文件中包含文字和圖片，將文件中文字提取出來，過濾一級(jí)關(guān)鍵詞和普通關(guān)鍵詞機(jī)制，圖片則進(jìn)行富媒體機(jī)制過濾，分別根據(jù)文本和圖片的過濾結(jié)果，采用從重處置的原則，作為該文件的處置結(jié)果。

3、現(xiàn)有5G不良管控平臺(tái)的技術(shù)弱點(diǎn)

現(xiàn)有5G不良消息安全管控平臺(tái)的過濾機(jī)制僅能過濾指定且有限的短語、短句，而隨著網(wǎng)絡(luò)普及，新鮮詞匯每天都會(huì)大量涌現(xiàn)，僅靠人工手動(dòng)添加詞匯，已經(jīng)無法做到及時(shí)、快速的更新詞匯庫。而且當(dāng)今大量用戶在發(fā)送文本信息時(shí)，雖然整個(gè)文本信息沒有違規(guī)詞匯，但表達(dá)的思想及情感卻可能帶有大量不良情感傾向，僅靠詞匯及短句無法成功攔截不良情感內(nèi)容。因此，利用文本情感分析，將富含不良情感傾向的句子進(jìn)行送審攔截，可以進(jìn)一步加強(qiáng)不良信息管控的效果，減少垃圾信息對(duì)用戶的侵蝕與毒害。

通過建立包含網(wǎng)絡(luò)流行短句及新聞消息的文本情感庫，將文本中富含的情感分為三類：積極情感、中性情感、消極情感，并按照這三種分類對(duì)每一個(gè)文本加上相應(yīng)標(biāo)簽，利用深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)情感庫中文本進(jìn)行訓(xùn)練，便可將訓(xùn)練好的模型用在5G不良消息管控平臺(tái)中對(duì)不良情感消息進(jìn)行攔截。

4、基于深度學(xué)習(xí)的5G不良管控系統(tǒng)技術(shù)實(shí)現(xiàn)細(xì)節(jié)

該技術(shù)中包含三大主體：jieba分詞系統(tǒng)、詞組向量化，文本情感識(shí)別算法，各個(gè)主體之間的交互如下圖：

各模塊交互流程圖

通過爬蟲技術(shù)爬取網(wǎng)絡(luò)詞語及新聞消息作為原始文本，并將原始文本按照8：2的比例分為訓(xùn)練集和測試集，對(duì)訓(xùn)練集中的文本信息進(jìn)行標(biāo)簽化，然后將測試集中文本信息通過jieba分詞工具進(jìn)行分詞處理，比如：他來到移動(dòng)杭研大廈。通過jieba分詞工具分詞后，結(jié)果為：他/來到/移動(dòng)/杭研/大廈，最后將分詞后數(shù)據(jù)組建成語料庫。由于訓(xùn)練集和測試集文本信息量很大（通常在百萬級(jí)數(shù)據(jù)），所以會(huì)導(dǎo)致分詞后語料庫中的數(shù)據(jù)量也十分龐大（千萬級(jí)數(shù)據(jù)量）。雖然可以將這些語料以編號(hào)的形式儲(chǔ)存在語料庫中，但由于數(shù)據(jù)量龐大，極易出現(xiàn)維度災(zāi)難。因此，針對(duì)文本信息中出現(xiàn)的語氣助詞，比如：“了”、“的”、“嗎”等等，這些詞雖然出現(xiàn)十分頻繁，但對(duì)情感作用幾乎沒有貢獻(xiàn)，我們會(huì)選擇在語料庫中剔除這些詞組，達(dá)到減少維度的目的。

我們將訓(xùn)練集中已經(jīng)向量化的詞組送入深度學(xué)習(xí)網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí)訓(xùn)練，獲取相應(yīng)模型，最后將測試集中的數(shù)據(jù)放入到模型中查看對(duì)應(yīng)的識(shí)別結(jié)果，當(dāng)該模型能夠獲得較好的正確率時(shí)，該模型聯(lián)接到5G不良管控平臺(tái)，用戶發(fā)送端到端的信息進(jìn)行過濾。在過濾過程中，若發(fā)現(xiàn)不良信息及時(shí)進(jìn)行攔截，使5G不良信息管控系統(tǒng)對(duì)于不良信息的攔截更加系統(tǒng)、全面。

具體步驟如下：

從網(wǎng)上爬取原始文本語料，并將原始文本進(jìn)行預(yù)處理，包括：去除語氣詞，刪除文本中出現(xiàn)的標(biāo)點(diǎn)符號(hào)、空白區(qū)域，刪除文本中出現(xiàn)的終止詞、稀疏詞和特定詞；使用jieba庫進(jìn)行分詞，將文本句子按照詞組精確地切開，分成一個(gè)一個(gè)單獨(dú)的詞組；將爬取到的文本數(shù)據(jù)集按照一定比例劃分成訓(xùn)練集和測試集，對(duì)訓(xùn)練集中文本句子進(jìn)行人工標(biāo)注，分為：積極情感、消極情感、中性情感。并分別使用jieba庫對(duì)訓(xùn)練集和測試集內(nèi)文本句子進(jìn)行分詞，將分詞后的訓(xùn)練集構(gòu)建成語料庫；將步驟1中詞組進(jìn)行向量化，讓每一個(gè)分詞映射為一個(gè)多維的連續(xù)值向量，得到整個(gè)數(shù)據(jù)集的詞向量矩陣。通過先抽取情感詞所在的子句，減少句子的復(fù)雜度，再在子句中根據(jù)各種特征預(yù)測情感對(duì)象的位置，然后再從相應(yīng)位置進(jìn)行情感抽取。情感抽取是為了獲取文本中有價(jià)值的情感信息，判斷一個(gè)單詞或詞組在情感表達(dá)中扮演的角色，包括情感表達(dá)者識(shí)別、評(píng)價(jià)對(duì)象識(shí)別、情感觀點(diǎn)詞識(shí)別等任務(wù)。通過將上述操作獲得的情感向量送入到深度學(xué)習(xí)網(wǎng)絡(luò)獲得文本情感識(shí)別模型，再將測試集中情感向量送入該模型中，查看測試結(jié)果，并將檢測結(jié)果正常的數(shù)據(jù)繼續(xù)進(jìn)行常規(guī)策略過濾，如：文本匹配、富媒體識(shí)別等。

5、融入深度學(xué)習(xí)的5G攔截系統(tǒng)的優(yōu)點(diǎn)

與現(xiàn)有5G攔截系統(tǒng)相比，融入深度學(xué)習(xí)的5G攔截系統(tǒng)具有以下優(yōu)點(diǎn)：

利用深度學(xué)習(xí)技術(shù)提供高可靠性、高真實(shí)性的有效鑒別；利用深度學(xué)習(xí)技術(shù)進(jìn)行情感識(shí)別，人工介入少，工作效率高；利用文本情感識(shí)別，可有效補(bǔ)充關(guān)鍵詞攔截的不足；利用文本情感識(shí)別，可將在策略中及時(shí)自動(dòng)更新補(bǔ)充新的詞條信息，提高效率。

寫在最后：

目前，深度學(xué)習(xí)應(yīng)用領(lǐng)域十分廣闊，依靠其重復(fù)訓(xùn)練、自我學(xué)習(xí)的方式，可以大大降低人工的工作量，提升效率及準(zhǔn)確度。不僅適用于上述不良信息攔截系統(tǒng)，相信在不久的將來，該技術(shù)在其他新興領(lǐng)域也會(huì)大放異彩。當(dāng)然，深度學(xué)習(xí)本身也不盡完美，并不能解決所有棘手問題。正因?yàn)槿绱?，我們?yīng)該繼續(xù)將深度學(xué)習(xí)技術(shù)投入到新場景、新領(lǐng)域以期獲得新突破，共創(chuàng)美好的未來智能生活。

本文鏈接：http://www.tebozhan.com/showinfo-119-2383-0.html基于深度學(xué)習(xí)的文本情感識(shí)別技術(shù)在5G不良消息安全管控平臺(tái)中的應(yīng)用

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇： ?什么是Transformer機(jī)器學(xué)習(xí)模型？譯文

下一篇：云安全日?qǐng)?bào)220621:Ubuntu操作系統(tǒng)發(fā)現(xiàn)英特爾微碼漏洞,需要盡快升級(jí)

標(biāo)簽：

熱門焦點(diǎn)

一加Ace2 Pro真機(jī)揭曉鈦空灰配色質(zhì)感拉滿

終于，在經(jīng)過了幾波預(yù)熱之后，一加Ace2 Pro的外觀真機(jī)圖在網(wǎng)上出現(xiàn)了。還是博主數(shù)碼閑聊站曝光的，這次的外觀設(shè)計(jì)還是延續(xù)了一加11的方案，只是細(xì)節(jié)上有了調(diào)整，例如新加入了鈦空灰
帥氣純真少年！日本最帥初中生選美冠軍出爐

日本第一帥哥初一生選美大賽冠軍現(xiàn)已正式出爐，冠軍是來自千葉縣的宗田悠良。日本一直熱衷于各種選美大賽，從“最美JK”起到“最美女星&r
三言兩語說透柯里化和反柯里化

JavaScript中的柯里化(Currying)和反柯里化(Uncurrying)是兩種很有用的技術(shù)，可以幫助我們寫出更加優(yōu)雅、泛用的函數(shù)。本文將首先介紹柯里化和反柯里化的概念、實(shí)現(xiàn)原理和應(yīng)用
2023年，我眼中的字節(jié)跳動(dòng)

此時(shí)此刻（2023年7月），字節(jié)跳動(dòng)從未上市，也從未公布過任何官方的上市計(jì)劃；但是這并不妨礙它成為中國最受關(guān)注的互聯(lián)網(wǎng)公司之一。從2016-17年的抖音強(qiáng)勢崛起，到2018年的“頭騰
重估百度丨“晚熟”的百度云，能等到春天嗎？

©自象限原創(chuàng)作者｜程心排版｜王喻可2016年7月13日，百度云計(jì)算戰(zhàn)略發(fā)布會(huì)在北京舉行，宣告著百度智能云的正式啟程。彼時(shí)的會(huì)場座無虛席，甚至排隊(duì)排到了門外，在場的所有人幾乎都
10天營收超1億美元，《星鐵》比《原神》差在哪？

來源：伯虎財(cái)經(jīng)作者：陳平安即便你沒玩過《原神》，你一定聽說過的它的大名。恨它的人把《原神》開服那天稱作是中國游戲史上最黑暗的一天，有粉絲因?yàn)樗髂嵩赑S平臺(tái)上線《原神》，怒而
AMD的AI芯片轉(zhuǎn)單給三星可能性不大與臺(tái)積電已合作至2nm制程

據(jù) DIGITIMES 消息，英偉達(dá) AI GPU 出貨逐季飆升，接下來 AMD MI 300 系列將在第 4 季底量產(chǎn)。而半導(dǎo)體業(yè)內(nèi)人士表示，近日傳出 AMD 的 AI 芯片將轉(zhuǎn)單給
OPPO K11搭載長壽版100W超級(jí)閃充：26分鐘充滿100%

據(jù)此前官方宣布，OPPO將于7月25日也就是今天下午14:30舉辦新品發(fā)布會(huì)，屆時(shí)全新的OPPO K11將正式與大家見面，將主打旗艦影像，和同檔位競品相比，其最大的賣
三翼鳥智能家居亮相電博會(huì)，讓用戶體驗(yàn)更真實(shí)

2021電博會(huì)在青島國際會(huì)展中心開幕中，三翼鳥直接把“家”搬到了現(xiàn)場，成為了展會(huì)的一大看點(diǎn)。這也是三翼鳥繼9月9日發(fā)布了行業(yè)首個(gè)一站式定制智慧家平臺(tái)后的

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

基于深度學(xué)習(xí)的文本情感識(shí)別技術(shù)在5G不良消息安全管控平臺(tái)中的應(yīng)用

一加Ace2 Pro真機(jī)揭曉鈦空灰配色質(zhì)感拉滿

帥氣純真少年！日本最帥初中生選美冠軍出爐

三言兩語說透柯里化和反柯里化

2023年，我眼中的字節(jié)跳動(dòng)

重估百度丨“晚熟”的百度云，能等到春天嗎？

10天營收超1億美元，《星鐵》比《原神》差在哪？

AMD的AI芯片轉(zhuǎn)單給三星可能性不大與臺(tái)積電已合作至2nm制程

OPPO K11搭載長壽版100W超級(jí)閃充：26分鐘充滿100%

三翼鳥智能家居亮相電博會(huì)，讓用戶體驗(yàn)更真實(shí)

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊