前言
33s28資訊網(wǎng)——每日最新資訊28at.com
在這個信息爆炸的互聯(lián)網(wǎng)時代,能夠及時準確獲取信息是當今社會要解決的關(guān)鍵問題之一。隨著之家用戶體量和內(nèi)容規(guī)模的不斷增大,傳統(tǒng)的靠"主動拉"獲取信息的方式已不能滿足用戶個性化信息的需求,信息主動尋找用戶的方式,更適合移動互聯(lián)網(wǎng)。push系統(tǒng)能在用戶不啟動APP的場景下獲取到相關(guān)信息,利用機器學習技術(shù)構(gòu)建模型,為用戶提供精準的個性化推薦,讓用戶第一時間知曉產(chǎn)品、內(nèi)容、活動等的最新動態(tài)。 33s28資訊網(wǎng)——每日最新資訊28at.com
33s28資訊網(wǎng)——每日最新資訊28at.com
1、系統(tǒng)綜述
33s28資訊網(wǎng)——每日最新資訊28at.com
push是一種有效召回用戶的產(chǎn)品,它涉及到的業(yè)務場景有:運營場景化推送(活動、消息通知、熱點)、算法精準推送(定時個性化推送),它的核心模塊如下:33s28資訊網(wǎng)——每日最新資訊28at.com
數(shù)據(jù)處理:用戶數(shù)據(jù)、內(nèi)容數(shù)據(jù)以及用戶歷史行為數(shù)據(jù)等。33s28資訊網(wǎng)——每日最新資訊28at.com
流程預測:通過召回、排序、干預、過濾等,生成待推送渲染數(shù)據(jù)。33s28資訊網(wǎng)——每日最新資訊28at.com
JOB:調(diào)度、觸發(fā)推送任務的執(zhí)行。33s28資訊網(wǎng)——每日最新資訊28at.com
推送通道:查詢、過濾有效設備,封裝協(xié)議和消息體,識別不同APP,下發(fā)到終端。33s28資訊網(wǎng)——每日最新資訊28at.com
終端:對消息進行積攢處理,請求廠商或第三方渠道,進行消息下發(fā)。33s28資訊網(wǎng)——每日最新資訊28at.com
APP:通知欄或彈窗展示推送消息,并上報到達和點擊數(shù)據(jù)。33s28資訊網(wǎng)——每日最新資訊28at.com
圖片33s28資訊網(wǎng)——每日最新資訊28at.com
33s28資訊網(wǎng)——每日最新資訊28at.com
接下來將從數(shù)據(jù)、算法、架構(gòu)三個方面介紹push精準推送系統(tǒng)的構(gòu)成:33s28資訊網(wǎng)——每日最新資訊28at.com
- 數(shù)據(jù):數(shù)據(jù)是push系統(tǒng)的基石,包括用戶數(shù)據(jù)、內(nèi)容數(shù)據(jù)以及用戶歷史行為數(shù)據(jù)等。它以離線畫像為主,輔以實時行為畫像。
- 算法:算法需要適應高度復雜性并處理大量數(shù)據(jù),傳統(tǒng)的人工策略已無法進行分析干預,因此需要一套基于復雜信息的處理邏輯。隨著push業(yè)務復雜度的提高,算法也從最初的樹模型發(fā)展到以神經(jīng)網(wǎng)絡為基礎(chǔ)的深度學習模型。
- 架構(gòu):架構(gòu)保證push系統(tǒng)可以進行近實時化、全自動化的運行。架構(gòu)包含了收集用戶行為、提取用戶畫像特征、存儲用戶數(shù)據(jù)、生成推送結(jié)果等。用戶對內(nèi)容的時效性、個性化要求越高,系統(tǒng)架構(gòu)就會越復雜。
33s28資訊網(wǎng)——每日最新資訊28at.com
2、系統(tǒng)迭代及優(yōu)化
33s28資訊網(wǎng)——每日最新資訊28at.com
2.1 鏈式任務
push采用鏈式任務支撐整個系統(tǒng),每批次預測任務都需要經(jīng)過特征提取、召回、排序、打散、重排、生成推薦結(jié)果等步驟,隨著新特征的接入以及召回和排序場景的不斷迭代優(yōu)化,任務失敗的頻率越來越高,主要存在如下問題:33s28資訊網(wǎng)——每日最新資訊28at.com
● 特征數(shù)據(jù)難以復用:特征數(shù)據(jù)存儲在臨時表中,任務執(zhí)行失敗時需人工介入恢復,無歷史數(shù)據(jù)可用。33s28資訊網(wǎng)——每日最新資訊28at.com
● 流程執(zhí)行鏈路過長:召回、排序、重排等關(guān)鍵流程每一步失敗都將造成任務失敗且重試成本高。33s28資訊網(wǎng)——每日最新資訊28at.com
● 非明文類召回功能接入成本高:新的召回策略實驗不能動態(tài)接入,需要開發(fā)介入。33s28資訊網(wǎng)——每日最新資訊28at.com
2.2 異步服務
針對鏈式任務存在的問題,push任務采用分尾號、分時段并行執(zhí)行,并通過以下方式提升任務執(zhí)行效率:33s28資訊網(wǎng)——每日最新資訊28at.com
● 數(shù)據(jù)分區(qū):將特征數(shù)據(jù)及預測流程各環(huán)節(jié)生成的結(jié)果存入分區(qū)表,解決任務執(zhí)行失敗時無數(shù)據(jù)可用的問題。33s28資訊網(wǎng)——每日最新資訊28at.com
● 流程拆分:將預測主流程拆分為召回、排序、重排、結(jié)果融合等子流程,每個子流程按尾號異步執(zhí)行,互不影響,每個子任務只需取上一環(huán)節(jié)生成的最新結(jié)果即可繼續(xù)運行,提升了系統(tǒng)的穩(wěn)定性及容錯性。33s28資訊網(wǎng)——每日最新資訊28at.com
● 平臺化配置:通過配置平臺動態(tài)接入實驗,簡化新策略接入成本。33s28資訊網(wǎng)——每日最新資訊28at.com
33s28資訊網(wǎng)——每日最新資訊28at.com
3.整體設計
33s28資訊網(wǎng)——每日最新資訊28at.com
3.1 業(yè)務架構(gòu)
圖片33s28資訊網(wǎng)——每日最新資訊28at.com
push系統(tǒng)業(yè)務主要分為三大部分,離線層、近線層和推送層。33s28資訊網(wǎng)——每日最新資訊28at.com
- 離線層:是計算量最大的一個部分,它不需要實時提供服務。主要功能模塊有數(shù)據(jù)處理、數(shù)據(jù)存儲、離線特征計算、離線預測等。它通過任務調(diào)度平臺定時從全量數(shù)據(jù)中抽取我們需要的數(shù)據(jù),進行相應的加工,生成對應的特征,經(jīng)過spark模型進行離線預測,得到待推送結(jié)果。
- 近線層:特點是準實時,它可以獲得實時數(shù)據(jù),然后快速計算提供服務。通過監(jiān)聽kafka,獲取用戶行為日志,計算得出用戶實時特征(用戶搜索車系、瀏覽車系等),然后將實時特征與長中期特征進行融合,調(diào)用tensorflow模型實時預測得到待推送結(jié)果。
- 推送層:將離線預測結(jié)果和實時預測結(jié)果進行融合(優(yōu)先取實時結(jié)果),按批次生成待推送數(shù)據(jù)。通過任務調(diào)度中心定時選取最新批次預測結(jié)果給用戶進行推送。
3.2 技術(shù)架構(gòu)
圖片33s28資訊網(wǎng)——每日最新資訊28at.com
push技術(shù)架構(gòu)的設計思想就是對數(shù)據(jù)層層建模、層層篩選,幫助用戶從海量數(shù)據(jù)中找出其真正感興趣的那部分內(nèi)容。它包含以下幾個部分:33s28資訊網(wǎng)——每日最新資訊28at.com
3.2.1用戶特征
push用戶特征包含兩部分,原始特征和計算特征,其中原始特征來源于畫像表、用戶行為日志、內(nèi)容數(shù)據(jù)等,將原始特征經(jīng)過加工形成計算特征,計算特征用于資源召回。33s28資訊網(wǎng)——每日最新資訊28at.com
圖片33s28資訊網(wǎng)——每日最新資訊28at.com
33s28資訊網(wǎng)——每日最新資訊28at.com
3.2.2物料特征
push物料主要分為以下幾類:原創(chuàng)文章/視頻、帖子、口碑、車家號、問答。每類內(nèi)容又分別包含興趣車系、標簽、關(guān)注作者、點擊數(shù)、瀏覽數(shù)、收藏數(shù)、互動率等特征。33s28資訊網(wǎng)——每日最新資訊28at.com
圖片33s28資訊網(wǎng)——每日最新資訊28at.com
3.2.3預測流程
預測是push系統(tǒng)中最重要的環(huán)節(jié),通過獲取用戶特征與物料特征,按照一定的邏輯處理信息后,產(chǎn)生推薦結(jié)果。它主要分為以下幾步:33s28資訊網(wǎng)——每日最新資訊28at.com
1. 召回:將十萬量級的物料先縮小到千量級。涉及到的召回方法有:33s28資訊網(wǎng)——每日最新資訊28at.com
熱門召回:將一段時間內(nèi)的熱門內(nèi)容召回。33s28資訊網(wǎng)——每日最新資訊28at.com
標簽召回:根據(jù)每個用戶的行為,構(gòu)建標簽,并根據(jù)標簽召回內(nèi)容。33s28資訊網(wǎng)——每日最新資訊28at.com
協(xié)同召回:基于用戶與用戶行為的相似性推薦,發(fā)現(xiàn)用戶潛在的興趣偏好。33s28資訊網(wǎng)——每日最新資訊28at.com
2. 過濾:已經(jīng)曝光和點擊后的資源、與用戶所在城市不同的資源不會再推送到用戶面前。33s28資訊網(wǎng)——每日最新資訊28at.com
3. 精排:將召回和過濾后的內(nèi)容通過模型預測出分值,根據(jù)得到的分值進行排序。33s28資訊網(wǎng)——每日最新資訊28at.com
4. 重排:將精排后的推薦結(jié)果進行一定的修改,例如控制某一車系的頻次,根據(jù)召回策略的權(quán)重對排序分值進行修改,將效果好的策略召回的資源置頂。33s28資訊網(wǎng)——每日最新資訊28at.com
圖片33s28資訊網(wǎng)——每日最新資訊28at.com
33s28資訊網(wǎng)——每日最新資訊28at.com
33s28資訊網(wǎng)——每日最新資訊28at.com
四、可視化平臺
33s28資訊網(wǎng)——每日最新資訊28at.com
push系統(tǒng)以定時任務為主,通過每日多次的召回、排序、過濾等主流程的運行,將最新物料及時推送至用戶端,相較于傳統(tǒng)監(jiān)測任務異常后進行的事后處理,我們更傾向于實時監(jiān)控。33s28資訊網(wǎng)——每日最新資訊28at.com
1、統(tǒng)一調(diào)度平臺
用于支撐push系統(tǒng)主流程業(yè)務運行,提供了失敗重跑、超時報警、日志查看等功能。33s28資訊網(wǎng)——每日最新資訊28at.com
圖片33s28資訊網(wǎng)——每日最新資訊28at.com
33s28資訊網(wǎng)——每日最新資訊28at.com
2、報表平臺
報表平臺主要包括推送策略打開率、實驗打開率、尾號打開率的統(tǒng)計,以及用于輔助決策的內(nèi)容池素材統(tǒng)計,用于事前預警的召回結(jié)果統(tǒng)計,這些報表便于開發(fā)人員及時發(fā)現(xiàn)和改進系統(tǒng)問題。33s28資訊網(wǎng)——每日最新資訊28at.com
圖片33s28資訊網(wǎng)——每日最新資訊28at.com
33s28資訊網(wǎng)——每日最新資訊28at.com
3、配置平臺
通過配置平臺進行ABTest、召回策略、排序模型、運營規(guī)則、過濾邏輯的動態(tài)切換,針對不同的推送時段可以進行個性化的配置。33s28資訊網(wǎng)——每日最新資訊28at.com
圖片33s28資訊網(wǎng)——每日最新資訊28at.com
33s28資訊網(wǎng)——每日最新資訊28at.com
33s28資訊網(wǎng)——每日最新資訊28at.com
五、總結(jié)
33s28資訊網(wǎng)——每日最新資訊28at.com
push系統(tǒng)是汽車之家APP的基礎(chǔ)功能,是觸達用戶的一個非常重要的手段,它每天給幾千萬用戶提供及時有趣的內(nèi)容服務,對于提高主軟活躍度及用戶粘性起到重要作用。未來它將繼續(xù)致力于召回喚醒沉默用戶、促進用戶活躍、提高功能使用體驗。33s28資訊網(wǎng)——每日最新資訊28at.com
33s28資訊網(wǎng)——每日最新資訊28at.com
33s28資訊網(wǎng)——每日最新資訊28at.com
33s28資訊網(wǎng)——每日最新資訊28at.com
作者簡介
33s28資訊網(wǎng)——每日最新資訊28at.com
■ C端及中臺產(chǎn)研中心-智能推薦部33s28資訊網(wǎng)——每日最新資訊28at.com
■ 汽車之家高級系統(tǒng)開發(fā)工程師。先后從事知識圖譜、之家大腦、PUSH精準推送等業(yè)務。現(xiàn)主要負責PUSH系統(tǒng)相關(guān)工作。33s28資訊網(wǎng)——每日最新資訊28at.com
33s28資訊網(wǎng)——每日最新資訊28at.com
33s28資訊網(wǎng)——每日最新資訊28at.com
33s28資訊網(wǎng)——每日最新資訊28at.com
■ C端及中臺產(chǎn)研中心-智能推薦部33s28資訊網(wǎng)——每日最新資訊28at.com
■ 汽車之家系統(tǒng)開發(fā)工程師。先后從事家家小秘、知識平臺、PUSH精準推送等業(yè)務?,F(xiàn)主要負責PUSH系統(tǒng)相關(guān)工作。33s28資訊網(wǎng)——每日最新資訊28at.com
33s28資訊網(wǎng)——每日最新資訊28at.com
本文鏈接:http://www.tebozhan.com/showinfo-26-123-0.html之家push系統(tǒng)迭代之路
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 讓我們一起聊聊文件的操作
下一篇: 如何通過Python線程池實現(xiàn)異步編程?