4 月 2 日消息,從國家知識產權局中國專利公布公告網獲悉,DeepSeek 關聯公司杭州深度求索人工智能基礎技術研究有限公司申請的“一種廣度數據采集的方法及其系統”專利于 4 月 1 日公布。
專利摘要顯示:
該發明的有益效果在于:發現盡可能多的網頁鏈接,并減少對網站的流量沖擊;對已經下載的內容進行分析,對未下載的鏈接進行質量推斷,通過擇優下載分配額度的方式,減少低質量網頁下載和重復下載,提高數據質量及下載效率,減少在數據采集過程中網絡資源的消耗;采用單獨的信息回灌隊列,保證網頁元信息庫修改操作的原子性和穩定性。
背景技術稱:近年來,隨著人工智能技術的進展,NLP 自然語言領域取得了巨大的進步。許多大語言模型 (LargeLanguageModels,LLMs) 被訓練應用于自然語言處理領域,用于研究實現人與計算機之間用自然語言進行有效通信的各種理論和方法。
大語言模型的訓練需要構建一個高質量、多樣化的大語言模型數據集,這需要將網頁數據采集并處理后得到大量高質量的文本信息作為模型的輸入,用于大語言模型進行訓練。
然而,現有的數據采集技術存在諸多問題,比如對復雜站點進行采集時,無法獲取完整鏈接;容易過量下載,造成對方網站崩潰;對下載頁面不進行內容質量分析和推斷,造成重復下載或低質下載、影響數據采集的效率。
因此,在大量網頁數據獲取的過程中,如何快速、精準、安全、高效地采集互聯網數據變得至關重要。
本文鏈接:http://www.tebozhan.com/showinfo-45-11935-0.htmlDeepSeek 新專利公布:減少數據采集時網絡資源消耗
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com