當前位置：首頁 > 科技 > 軟件

場景題：海量數據如何判重？

來源：責編：時間：2023-09-18 21:40:03 326觀看

導讀在海量數據如何確定一個值是否存在？這是一道非常經典的面試場景題。那怎么回答這個問題呢？接下來咱們就詳細的聊一聊。參考答案判斷一個值是否存在？通常有以下兩種解決方案：使用哈希表：可以將數據進行哈希操作，將數據存儲在

在海量數據如何確定一個值是否存在？這是一道非常經典的面試場景題。

那怎么回答這個問題呢？接下來咱們就詳細的聊一聊。

參考答案

判斷一個值是否存在？通常有以下兩種解決方案：

使用哈希表：可以將數據進行哈希操作，將數據存儲在相應的桶中。查詢時，根據哈希值定位到對應的桶，然后在桶內進行查找。這種方法的時間復雜度為 O(1)，但需要額外的存儲空間來存儲哈希表。如果桶中存在數據，則說明此值已存在，否則說明未存在。
使用布隆過濾器：布隆過濾器是一種概率型數據結構，用于判斷一個元素是否在集合中。它利用多個哈希函數映射數據到一個位數組，并將對應位置置為 1。查詢時，只需要對待查詢的數據進行哈希，并判斷對應的位是否都為 1。如果都為 1，則該數據可能存在；如果有一個位不為 1，則該數據一定不存在。布隆過濾器的查詢時間復雜度為 O(k)，其中 k 為哈希函數的個數。

相同點和不同點

它們兩的相同點是：它們都存在誤判的情況。例如，使用哈希表時，不同元素的哈希值可能相同，所以這樣就產生誤判了；而布隆過濾器的特征是，當布隆過濾器說，某個數據存在時，這個數據可能不存在；當布隆過濾器說，某個數據不存在時，那么這個數據一定不存在。

它們兩的區別主要有以下幾點：

存儲機制：哈希表使用一個數組來存儲鍵值對，通過哈希函數將鍵映射到數組的索引位置，然后將值存儲在對應的位置上。而布隆過濾器則使用一個位數組（或位向量），通過多個哈希函數將元素映射到位數組的多個位上。
查詢操作：哈希表在進行查詢時，通過計算哈希值來定位鍵值對的存儲位置，然后直接獲取對應的值。查詢時間復雜度通常為 O(1)。布隆過濾器在進行查詢時，也通過多個哈希函數計算多個位，然后判斷對應的位是否都為 1 來確定元素是否存在。查詢時間復雜度為 O(k)，其中 k 為哈希函數的個數。
內存占用：哈希表需要根據數據規模來動態調整數組的大小，以保證存儲效率。而布隆過濾器在預先設置位數組的大小后，不會隨數據規模的增加而增長。因此布隆過濾器更適用于海量數據。

結論

哈希表和布隆過濾器都能實現判重，但它們都會存在誤判的情況，但布隆過濾器存儲占用的空間更小，更適合海量數據的判重。

布隆過濾器實現原理

布隆過濾器的實現，主要依靠的是它數據結構中的一個位數組，每次存儲鍵值的時候，不是直接把數據存儲在數據結構中，因為這樣太占空間了，它是利用幾個不同的無偏哈希函數，把此元素的 hash 值均勻的存儲在位數組中，也就是說，每次添加時會通過幾個無偏哈希函數算出它的位置，把這些位置設置成 1 就完成了添加操作。

當進行元素判斷時，查詢此元素的幾個哈希位置上的值是否為 1，如果全部為 1，則表示此值存在，如果有一個值為 0，則表示不存在。因為此位置是通過 hash 計算得來的，所以即使這個位置是 1，并不能確定是那個元素把它標識為 1 的，因此布隆過濾器查詢此值存在時，此值不一定存在，但查詢此值不存在時，此值一定不存在。

并且當位數組存儲值比較稀疏的時候，查詢的準確率越高，而當位數組存儲的值越來越多時，誤差也會增大。

位數組和 key 之間的關系，如下圖所示：

如何實現布隆過濾器？

布隆過濾器的實現通常有以下兩種方案：

通過程序實現（內存級別方案）：使用 Google Guava 庫和 Apache Commons 庫實現布隆過濾器。
通過中間件實現（支持數據持久化）：使用 Redis 4.0 之后提供的布隆過濾插件來實現，它的好處是支持持久化，數據不會丟失。

Guava 實現布隆過濾器

使用 Google Guava 庫實現布隆過濾器總共分為以下兩步：

引入 Guava 依賴
使用 Guava API 操作布隆過濾器

具體實現如下。

① 引入 Guava 依賴

<dependency>    <groupId>com.google.guava</groupId>    <artifactId>guava</artifactId></dependency>

② 使用 Guava API

import com.google.common.hash.BloomFilter;import com.google.common.hash.Funnels;public class BloomFilterExample {    public static void main(String[] args) {        // 創建一個布隆過濾器，設置期望插入的數據量為10000，期望的誤判率為0.01        BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.unencodedCharsFunnel(), 10000, 0.01);        // 向布隆過濾器中插入數據        bloomFilter.put("data1");        bloomFilter.put("data2");        bloomFilter.put("data3");        // 查詢元素是否存在于布隆過濾器中        System.out.println(bloomFilter.mightContain("data1")); // true        System.out.println(bloomFilter.mightContain("data4")); // false    }}

在上述示例中，我們通過 BloomFilter.create() 方法創建一個布隆過濾器，指定了元素序列化方式、期望插入的數據量和期望的誤判率。然后，我們可以使用 put() 方法向布隆過濾器中插入數據，使用 mightContain() 方法來判斷元素是否存在于布隆過濾器中。

小結

在海量數據如何確定一個值是否存在？通常有兩種解決方案：哈希表和布隆過濾器，而它們兩都存在誤判的情況，但布隆過濾器更適合海量數據的判斷，因為它占用的數據空間更小。布隆過濾器的特征是：當布隆過濾器說，某個數據存在時，這個數據可能不存在；當布隆過濾器說，某個數據不存在時，那么這個數據一定不存在。

本文鏈接：http://www.tebozhan.com/showinfo-26-10404-0.html場景題：海量數據如何判重？

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： IDC下調中國政務云整體市場5年復合增長率至16.14%

下一篇：性能測試的需求分析

標簽：

熱門焦點

容量越大越不壞？24萬塊硬盤故障率報告公布這些產品零故障

8月5日消息，云存儲服務商Backblaze發布了最新的硬盤故障率報告，年故障率有所上升。Backblaze發布的硬盤季度統計數據，其中包括故障率等重要方面。這些結
摸魚心法第一章——和配置文件說拜拜

為了能摸魚我們團隊做了容器化，但是帶來的問題是服務配置文件很麻煩，然后大家在群里進行了“親切友好”的溝通圖片圖片圖片圖片對比就對比，簡單對比下獨立配置中心和k8s作為配
阿里瓴羊One推出背后，零售企業迎數字化新解

作者:劉曠近年來隨著數字經濟的高速發展，各式各樣的SaaS應用服務更是層出不窮，但本質上SaaS大多局限于單一業務流層面，對用戶核心關切的增長問題等則沒有提供更好的解法。在Saa
三星推出Galaxy Tab S9系列平板電腦以及Galaxy Watch6系列智能手表

2023年7月26日，三星電子正式發布了Galaxy Z Flip5與Galaxy Z Fold5。除此之外，Galaxy Tab S9系列平板電腦以及三星Galaxy Watch6系列智能手表也同期
iQOO 11S新品發布會

iQOO將在7月4日19:00舉行新品發布會，推出杭州亞運會電競賽事官方用機iQOO 11S。
iQOO Neo8系列今日官宣：首發天璣9200+ 全球安卓最強芯！

在昨日舉行的的聯發科新一代旗艦芯片天璣9200+的發布會上，iQOO官方也正式宣布，全新的iQOO Neo8系列新品將全球首發搭載這款當前性能最強大的移動平臺
Android 14發布：首批適配機型公布

5月11日消息，谷歌在今天凌晨舉行了I/O大會，本次發布會谷歌帶來了自家的AI語言模型PaLM 2、谷歌Pixel Fold折疊屏、谷歌Pixel 7a手機，同時發布了Androi
外交部：美方應停止在網絡安全問題上不負責任地指責他國

　中國外交部今天（16日）舉行例行記者會。會上，有記者問，美國情報官員稱，他們正在阻攔來自中國以及其他國家的黑客獲取相關科研成果。中方對此有何評論？對此
中關村論壇11月25日開幕，15位諾獎級大咖將發表演講

11月18日，記者從2022中關村論壇新聞發布會上獲悉，中關村論壇將于11月25至30日在京舉行。本屆中關村論壇由科學技術部、國家發展改革委、工業和信息化部、國務

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

場景題：海量數據如何判重？

參考答案

相同點和不同點

結論

布隆過濾器實現原理

如何實現布隆過濾器？

Guava 實現布隆過濾器

① 引入 Guava 依賴

② 使用 Guava API

小結

容量越大越不壞？24萬塊硬盤故障率報告公布這些產品零故障

摸魚心法第一章——和配置文件說拜拜

阿里瓴羊One推出背后，零售企業迎數字化新解

三星推出Galaxy Tab S9系列平板電腦以及Galaxy Watch6系列智能手表

iQOO 11S新品發布會

iQOO Neo8系列今日官宣：首發天璣9200+ 全球安卓最強芯！

Android 14發布：首批適配機型公布

外交部：美方應停止在網絡安全問題上不負責任地指責他國

中關村論壇11月25日開幕，15位諾獎級大咖將發表演講

最新推薦

猜你喜歡

熱門推薦

相關資訊