作者 | 孫越,單位:中移(杭州)信息技術(shù)有限公司 | 中國移動(dòng)杭州研發(fā)中心
Labs 導(dǎo)讀
隨著5G網(wǎng)絡(luò)的不斷普及,大量用戶開始接觸并使用5G網(wǎng)絡(luò)。5G網(wǎng)絡(luò)不僅可以傳送傳統(tǒng)網(wǎng)絡(luò)的語音、視頻、文本等信息,還可以憑借更加低時(shí)延及高精準(zhǔn)的定位能力,被使用在更多具有實(shí)用價(jià)值的應(yīng)用場景中,如:戰(zhàn)地實(shí)況信息、衛(wèi)星定位導(dǎo)航等等。
網(wǎng)絡(luò)信息時(shí)常會(huì)夾雜不良信息,如涉政信息、涉黃信息、涉黑信息、涉詐信息、商業(yè)廣告消息等,且不良信息數(shù)量呈現(xiàn)逐年上升趨勢,給用戶造成了巨大騷擾。為了凈化網(wǎng)絡(luò)環(huán)境,有效管控不良信息傳播,中國移動(dòng)5G不良消息安全管控平臺(tái)應(yīng)運(yùn)而生。
數(shù)據(jù)來源:中國移動(dòng)集團(tuán)信息安全中心
1、5G不良信息管控平臺(tái)的應(yīng)用場景
該平臺(tái)在面對(duì)繁雜的網(wǎng)絡(luò)信息環(huán)境時(shí),諸如文本消息、語音信息、視頻信息、富媒體信息等,將信息歸類為:涉政、涉黃、涉黑、涉詐、商業(yè)廣告消息、正常消息等等,再通過對(duì)應(yīng)策略進(jìn)行及時(shí)攔截,并根據(jù)不良消息的嚴(yán)重程度進(jìn)行后續(xù)懲處處理,從根源凈化網(wǎng)絡(luò)環(huán)境,營造良好的網(wǎng)絡(luò)空間。
2、現(xiàn)有5G不良信息管控平臺(tái)的技術(shù)要點(diǎn)
該平臺(tái)主要通過以下幾種方法對(duì)不良信息進(jìn)行攔截:
①設(shè)定一級(jí)關(guān)鍵詞:一級(jí)關(guān)鍵詞通常設(shè)置為一些極度敏感詞匯,若用戶發(fā)送信息中包含一級(jí)關(guān)鍵詞內(nèi)容,即立即攔截該信息,信息內(nèi)容無法下發(fā),并對(duì)該用戶進(jìn)行標(biāo)記。
②設(shè)定普通關(guān)鍵詞: 普通關(guān)鍵詞設(shè)置為一些較為敏感詞匯,若用戶發(fā)送信息中包含普通關(guān)鍵詞內(nèi)容,且在一定時(shí)間內(nèi),用戶發(fā)送該敏感消息的次數(shù)超過系統(tǒng)預(yù)先設(shè)定的攔截閾值,則系統(tǒng)會(huì)將用戶拉入黑名單,在一定時(shí)間內(nèi),該用戶無法使用完整5G網(wǎng)絡(luò)服務(wù)。
③設(shè)定復(fù)雜文本信息監(jiān)控:如用戶發(fā)送PDF文件,其中該文件中包含文字和圖片,將文件中文字提取出來,過濾一級(jí)關(guān)鍵詞和普通關(guān)鍵詞機(jī)制,圖片則進(jìn)行富媒體機(jī)制過濾,分別根據(jù)文本和圖片的過濾結(jié)果,采用從重處置的原則,作為該文件的處置結(jié)果。
3、現(xiàn)有5G不良管控平臺(tái)的技術(shù)弱點(diǎn)
現(xiàn)有5G不良消息安全管控平臺(tái)的過濾機(jī)制僅能過濾指定且有限的短語、短句,而隨著網(wǎng)絡(luò)普及,新鮮詞匯每天都會(huì)大量涌現(xiàn),僅靠人工手動(dòng)添加詞匯,已經(jīng)無法做到及時(shí)、快速的更新詞匯庫。而且當(dāng)今大量用戶在發(fā)送文本信息時(shí),雖然整個(gè)文本信息沒有違規(guī)詞匯,但表達(dá)的思想及情感卻可能帶有大量不良情感傾向,僅靠詞匯及短句無法成功攔截不良情感內(nèi)容。因此,利用文本情感分析,將富含不良情感傾向的句子進(jìn)行送審攔截,可以進(jìn)一步加強(qiáng)不良信息管控的效果,減少垃圾信息對(duì)用戶的侵蝕與毒害。
通過建立包含網(wǎng)絡(luò)流行短句及新聞消息的文本情感庫,將文本中富含的情感分為三類:積極情感、中性情感、消極情感,并按照這三種分類對(duì)每一個(gè)文本加上相應(yīng)標(biāo)簽,利用深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)情感庫中文本進(jìn)行訓(xùn)練,便可將訓(xùn)練好的模型用在5G不良消息管控平臺(tái)中對(duì)不良情感消息進(jìn)行攔截。
4、基于深度學(xué)習(xí)的5G不良管控系統(tǒng)技術(shù)實(shí)現(xiàn)細(xì)節(jié)
該技術(shù)中包含三大主體:jieba分詞系統(tǒng)、詞組向量化,文本情感識(shí)別算法,各個(gè)主體之間的交互如下圖:
各模塊交互流程圖
通過爬蟲技術(shù)爬取網(wǎng)絡(luò)詞語及新聞消息作為原始文本,并將原始文本按照8:2的比例分為訓(xùn)練集和測試集,對(duì)訓(xùn)練集中的文本信息進(jìn)行標(biāo)簽化,然后將測試集中文本信息通過jieba分詞工具進(jìn)行分詞處理,比如:他來到移動(dòng)杭研大廈。通過jieba分詞工具分詞后,結(jié)果為:他/來到/移動(dòng)/杭研/大廈,最后將分詞后數(shù)據(jù)組建成語料庫。由于訓(xùn)練集和測試集文本信息量很大(通常在百萬級(jí)數(shù)據(jù)),所以會(huì)導(dǎo)致分詞后語料庫中的數(shù)據(jù)量也十分龐大(千萬級(jí)數(shù)據(jù)量)。雖然可以將這些語料以編號(hào)的形式儲(chǔ)存在語料庫中,但由于數(shù)據(jù)量龐大,極易出現(xiàn)維度災(zāi)難。因此,針對(duì)文本信息中出現(xiàn)的語氣助詞,比如:“了”、“的”、“嗎”等等,這些詞雖然出現(xiàn)十分頻繁,但對(duì)情感作用幾乎沒有貢獻(xiàn),我們會(huì)選擇在語料庫中剔除這些詞組,達(dá)到減少維度的目的。
我們將訓(xùn)練集中已經(jīng)向量化的詞組送入深度學(xué)習(xí)網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí)訓(xùn)練,獲取相應(yīng)模型,最后將測試集中的數(shù)據(jù)放入到模型中查看對(duì)應(yīng)的識(shí)別結(jié)果,當(dāng)該模型能夠獲得較好的正確率時(shí),該模型聯(lián)接到5G不良管控平臺(tái),用戶發(fā)送端到端的信息進(jìn)行過濾。在過濾過程中,若發(fā)現(xiàn)不良信息及時(shí)進(jìn)行攔截,使5G不良信息管控系統(tǒng)對(duì)于不良信息的攔截更加系統(tǒng)、全面。
具體步驟如下:
從網(wǎng)上爬取原始文本語料,并將原始文本進(jìn)行預(yù)處理,包括:去除語氣詞,刪除文本中出現(xiàn)的標(biāo)點(diǎn)符號(hào)、空白區(qū)域,刪除文本中出現(xiàn)的終止詞、稀疏詞和特定詞;使用jieba庫進(jìn)行分詞,將文本句子按照詞組精確地切開,分成一個(gè)一個(gè)單獨(dú)的詞組;將爬取到的文本數(shù)據(jù)集按照一定比例劃分成訓(xùn)練集和測試集,對(duì)訓(xùn)練集中文本句子進(jìn)行人工標(biāo)注,分為:積極情感、消極情感、中性情感。并分別使用jieba庫對(duì)訓(xùn)練集和測試集內(nèi)文本句子進(jìn)行分詞,將分詞后的訓(xùn)練集構(gòu)建成語料庫;將步驟1中詞組進(jìn)行向量化,讓每一個(gè)分詞映射為一個(gè)多維的連續(xù)值向量,得到整個(gè)數(shù)據(jù)集的詞向量矩陣。通過先抽取情感詞所在的子句,減少句子的復(fù)雜度,再在子句中根據(jù)各種特征預(yù)測情感對(duì)象的位置,然后再從相應(yīng)位置進(jìn)行情感抽取。情感抽取是為了獲取文本中有價(jià)值的情感信息,判斷一個(gè)單詞或詞組在情感表達(dá)中扮演的角色,包括情感表達(dá)者識(shí)別、評(píng)價(jià)對(duì)象識(shí)別、情感觀點(diǎn)詞識(shí)別等任務(wù)。通過將上述操作獲得的情感向量送入到深度學(xué)習(xí)網(wǎng)絡(luò)獲得文本情感識(shí)別模型,再將測試集中情感向量送入該模型中,查看測試結(jié)果,并將檢測結(jié)果正常的數(shù)據(jù)繼續(xù)進(jìn)行常規(guī)策略過濾,如:文本匹配、富媒體識(shí)別等。
5、融入深度學(xué)習(xí)的5G攔截系統(tǒng)的優(yōu)點(diǎn)
與現(xiàn)有5G攔截系統(tǒng)相比,融入深度學(xué)習(xí)的5G攔截系統(tǒng)具有以下優(yōu)點(diǎn):
利用深度學(xué)習(xí)技術(shù)提供高可靠性、高真實(shí)性的有效鑒別;利用深度學(xué)習(xí)技術(shù)進(jìn)行情感識(shí)別,人工介入少,工作效率高;利用文本情感識(shí)別,可有效補(bǔ)充關(guān)鍵詞攔截的不足;利用文本情感識(shí)別,可將在策略中及時(shí)自動(dòng)更新補(bǔ)充新的詞條信息,提高效率。
寫在最后:
目前,深度學(xué)習(xí)應(yīng)用領(lǐng)域十分廣闊,依靠其重復(fù)訓(xùn)練、自我學(xué)習(xí)的方式,可以大大降低人工的工作量,提升效率及準(zhǔn)確度。不僅適用于上述不良信息攔截系統(tǒng),相信在不久的將來,該技術(shù)在其他新興領(lǐng)域也會(huì)大放異彩。當(dāng)然,深度學(xué)習(xí)本身也不盡完美,并不能解決所有棘手問題。正因?yàn)槿绱?,我們?yīng)該繼續(xù)將深度學(xué)習(xí)技術(shù)投入到新場景、新領(lǐng)域以期獲得新突破,共創(chuàng)美好的未來智能生活。
本文鏈接:http://www.tebozhan.com/showinfo-119-2383-0.html基于深度學(xué)習(xí)的文本情感識(shí)別技術(shù)在5G不良消息安全管控平臺(tái)中的應(yīng)用
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: ?什么是Transformer機(jī)器學(xué)習(xí)模型? 譯文
下一篇: 云安全日?qǐng)?bào)220621:Ubuntu操作系統(tǒng)發(fā)現(xiàn)英特爾微碼漏洞,需要盡快升級(jí)