當前位置：首頁 > 科技 > 軟件

Elasticsearch 電商場景：明明有這個關鍵詞，但是搜不出來，怎么辦？

來源：責編：時間：2024-05-16 09:08:51 153觀看

導讀1、實戰問題場景：電商創業公司（非傳統巨頭）讀者描述需求：content是一個text類型，用的 ik_max_word 分的詞，需要根據關鍵詞做精準匹配，并且按照發布時間倒序。比如我搜：小米6s，搜出來的結果要精確匹配到：小米6s，并且按照用戶的發

1、實戰問題

場景：電商創業公司（非傳統巨頭）
讀者描述需求：

content是一個text類型，用的 ik_max_word 分的詞，需要根據關鍵詞做精準匹配，并且按照發布時間倒序。

比如我搜：小米6s，搜出來的結果要精確匹配到：小米6s，并且按照用戶的發布時間倒序排序。

現在的問題是用 match_pharse 搜索的時候，有時候文檔里明明有這個關鍵詞，但是搜不出來，嘗試了好幾種手段......

熟悉咱們公眾號推文的同學應該知道，咱們分別在 2018年、2020年、2022年都做過多次類似問題的討論。

探究 | 明明存在，怎么搜索不出來呢？

Elasticsearch能檢索出來，但不能正確高亮怎么辦？

由 Elasticsearch 空間換時間的線上問題說開去......

2、重新梳理一下檢索認知

2.1 分詞和詞典的本質

數據索引化的過程是借助分詞器完成的，如讀者的分詞器是 IK 中文分詞器。

問題來了？IK 中文分詞器能包含全部的詞匯嗎？

大家看 medcl 大佬開源的 IK 分詞器的源碼中能找到 main.dic 大小是 2.92 MB。并且這個詞典 8 年+ 沒有更新過。

圖片

顯然：IK 默認詞典覆蓋不了全部詞匯，尤其諸如“顯眼包”、“小米14”、“奧利給”、“葉氏那拉”等的新詞。如下截圖是我自定義的詞典的詞庫檢索截圖。

圖片

再來一波舉例看看：

PUT my_index_0512{  "mappings": {    "properties": {      "title": {        "type": "text",        "analyzer": "ik_smart",        "fields": {          "keyword": {            "type": "keyword"          }        }      }    }  }}

POST my_index_0512/_bulk{"index":{"_id":1}}{"title":"奧利給是一個網絡流行詞，第一次出現在一名快手主播直播時說的正能量語錄里。"}## 分詞為：“奧利” 和 “給” 兩個詞POST my_index_0512/_analyze{  "text":"奧利給是一個網絡流行詞，第一次出現在一名快手主播直播時說的正能量語錄里。",  "analyzer":"ik_smart"}## 檢索不能召回結果，這里用 term 主要說明問題，合理性待商榷！POST my_index_0512/_search{  "profile": true,   "query": {    "term": {      "title": "奧利給"    }  }}

圖片

結論：詞典決定分詞，詞典里沒有的詞，極大可能（有一定概率，比如：match_phrase 詞+詞組合的情況）檢索會檢索不到。

ps: 關于 term、match、match_phrase 區別等，推薦閱讀：檢索選型。

2.2 全文檢索的本質

全文檢索的本質是查詢待檢索的關鍵詞在寫入所創建的索引中是否存在的過程。

存在，則召回；不存在，則返回空。

2.3 明明有這個關鍵詞，但是搜不出來的本質

表面上可以看出，之前咱們2018年、2020年、2022年討論的方案用 match、match_phrase、match_phrase_prefix 等再結合 slop，貌似能解決一些問題，好像有些不召回的情況，可以召回了。

但，依然治標不治本。依然會存在一些“新詞”、“詞典里沒有的詞”等看似明明一段話里存在的詞，就是檢索不到的原因。

3、能不能根治呢？

答案：不完全能！

但，可以嘗試空間換時間，借助 Ngram 能解決 99% 以上場景的問題。

針對讀者的問題，借助 Ngram 分詞實操一下：

### 3.1 創建索引DELETE new_spy_uat2PUT new_spy_uat2{  "settings": {    "index.max_ngram_diff": 10,    "analysis": {      "analyzer": {        "my_analyzer": {          "tokenizer": "my_tokenizer",          "char_filter": ["my_char_filter"]        }      },      "char_filter": {        "my_char_filter": {          "type": "pattern_replace",          "pattern": "[^//p{L}//p{N}//s]+",          "replacement": ""        }      },      "tokenizer": {        "my_tokenizer": {          "type": "ngram",          "min_gram": 2,          "max_gram": 10        }      }    }  },  "mappings": {    "properties": {      "content": {        "type": "text",        "analyzer": "my_analyzer",        "fields": {          "keyword": {            "type": "keyword"          }        }      }    }  }}

在提供的 Elasticsearch 配置中，my_tokenizer 是一個基于 n-gram 的分詞器，配置了從最小 2 個字符到最大 10 個字符的 n-gram。

在《一本書講透 Elasticsearch》第6.4 章節 P111 解讀了自定義分詞器的三大核心組成：

character filter
tokenizer
token filter

咱們上面的“my_char_filter”定義了文本在分詞前進行預處理的字符過濾規則。實際是使用正則表達式刪除所有非字母、非數字、非空格字符，只保留字母、數字和空白字符，中文字符是可以保留的。

N-gram 是一種分詞方法，通過從文本中提取 n 個連續字符的滑動窗口來創建詞元（tokens）。這種方法在處理需要部分匹配和模糊搜索的應用中非常有用，比如搜索建議和拼寫錯誤的容錯處理。

在這種配置下，文本會被分解成所有可能的 2 到 10 個字符的組合。

例如，要執行如下檢索：

POST new_spy_uat2/_analyze{  "analyzer":"my_analyzer",  "text":"奧利給這幾年才流行"}

分詞結果如下：

圖片

這種方法可以大大增加索引的大小因為每個詞都被分解成多個子詞，但同時也提高了搜索的靈活性和準確性，尤其是在搜索短文本或關鍵詞片段時。

這樣的分詞器尤其適合于搜索引擎的自動補全功能和處理用戶可能的輸入錯誤，因為它能夠在用戶輸入部分信息時就開始匹配相關的詞條。

3.2 導入數據

POST new_spy_uat2/_bulk{ "index" : { "_index" : "new_spy_uat2", "_id" : "1" } }{ "content" : "新品豪車??限1000單食物鏈巴氏小仙包犬濕糧360g 
                本文鏈接：http://www.tebozhan.com/showinfo-26-88368-0.htmlElasticsearch 電商場景：明明有這個關鍵詞，但是搜不出來，怎么辦？
                聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com
                上一篇： 一文徹底搞明白中介模式
                下一篇： 定時任務輕松搞定：使用Cron表達式和Quartz庫實現定時任務調度

 
			
            	標簽：


        
        
        
            熱門焦點
        
        
        
              
             
            
                
                
                    女孩租房開2小時空調用完100元電費引熱議：5級能耗惹不起 月薪過萬電費也交不起
                    
                                             近日，江蘇蘇州一女孩租房當天充值了100元電費，開著空調不到2小時發現電費已用完。對于為什么這個快，房東表示，電表壞了這種情況很多，之前也遇到過，給租客換
                    
                
            
             
            
                
                
                    Flowable工作流引擎的科普與實踐
                    
                        一.引言當我們在日常工作和業務中需要進行各種審批流程時，可能會面臨一系列技術和業務上的挑戰。手動處理這些審批流程可能會導致開發成本的增加以及業務復雜度的上升。在這
                    
                
            
             
            
                
                
                    微信語音大揭秘：為什么禁止轉發？
                    
                        大家好，我是你們的小米。今天，我要和大家聊一個有趣的話題：為什么微信語音不可以轉發？這是一個我們經常在日常使用中遇到的問題，也是一個讓很多人好奇的問題。讓我們一起來揭開這
                    
                
            
             
            
                
                
                    三萬字盤點 Spring 九大核心基礎功能
                    
                        大家好，我是三友~~今天來跟大家聊一聊Spring的9大核心基礎功能。話不多說，先上目錄：圖片友情提示，本文過長，建議收藏，嘿嘿嘿！一、資源管理資源管理是Spring的一個核心的基礎功能，不
                    
                
            
             
            
                
                
                    騰訊蓋樓，字節拆墻
                    
                        來源 | 光子星球撰文 | 吳坤諺編輯 | 吳先之&ldquo;想重溫暴刷深淵、30+技能搭配暴搓到爽的游戲體驗嗎？一起上晶核，即刻暴打！&rdquo;曾憑借直播騰訊旗下代理格斗游戲《DNF》一
                    
                
            
             
            
                
                
                    小米汽車電池信息疑似曝光：容量101kWh，支持800V高壓快充
                    
                                                7月14日消息，今日一名博主在社交媒體發布了一張疑似小米汽車電池信息的照片，顯示該電池包正是寧德時代麒麟電池，容量為101kWh，電壓為726.7V，可以預測小
                    
                
            
             
            
                
                
                    8月見！小米MIX Fold 3獲得3C認證：支持67W快充
                    
                                                這段時間以來，包括三星、一加、榮耀等等有不少品牌旗下的最新折疊屏旗艦都得到了不少爆料，而小米新一代折疊屏旗艦——小米MIX Fold 3此前也屢屢被傳
                    
                
            
             
            
                
                
                    自研Exynos回歸！三星Galaxy S24系列將提供Exynos和驍龍雙版本
                    
                                                年初，全新的三星Galaxy S23系列發布，包含Galaxy S23、Galaxy S23+和Galaxy S23 Ultra三個版本，全系搭載超頻版驍龍8 Gen 2，雖同樣采用臺積電4nm工藝制
                    
                
            
             
            
                
                
                    蘋果公司要求三星和LG Display生產「無邊框」OLED iPhone顯示屏
                    
                                                據 The Elec 報道，蘋果已要求其供應商為未來的 iPhone 型號開發「無邊框」OLED 顯示面板。蘋果顯然已要求三星和 LG Display 開發新的 OLED 顯示面


    
    
    
        
            最新推薦
            
				  
				 
                一級造價工程師證，應該怎么領取？
				 
                護士資格考試需要什么材料？快來看看今日分享
				 
                體育游戲教案不會做？快來看看今日分享
				 
                銷售人員精彩競聘演講稿
				 
                銷售人員競聘演講稿
				 
                關于學習委員競選演講稿
				 
                教師組長競聘崗位演講稿
				 
                教師競聘演講自我介紹
				 
                最新應屆生競聘崗演講稿完整版
				     
            
        
        
		
            猜你喜歡
            
				  
				 
                被夸張的阿斯巴甜致癌論，鋪好一條陽關大道
				 
                陜西寶雞舉行炎帝陵祭祀典禮
				 
                咸陽市著力抓好“菜籃子”穩產保供
				 
                西安老年人助餐服務規定面向社會征求意見
				 
                耳內進蟲 兩招應急
				 
                膝關節置換術后要注意什么？這5大護理要做到位！
				 
                匠心入微！星河灣4.0標準，鑒證品質背后的考究
				 
                麻六記西北首店開業 助力賽格10周年店慶
				 
                “綠色烏審 走進西安”烏審旗農旅產品推介會圓滿舉行
				     
            
        
        
		
            熱門推薦
            
				  
				 
                個人養老金制度啟動實施
				 
                吳亦凡案，這五個法律問題你應該知道!
				 
                總統候選人遇刺身亡后，厄瓜多爾又有政黨領袖遭槍殺
				 
                俄軍用機場遭烏無人機襲擊 機場起火，飛機受損
				 
                如何推進媒體深度融合發展
				 
                五角大樓：將試射洲際彈道導彈，已“提前通知俄政府”
				 
                第六屆進博會達成哪些成果？
				 
                稠州金租榮獲“浙江省優秀民營企業“稱號
				 
                泰國血色婚禮致5死1重傷：新郎槍殺新娘岳母后自殺，新人曾在婚禮上發生爭執真相究竟是什么？
				     
            
        
		
		
            相關資訊
            
				  
				 
                俄羅斯：將審查iPhone等外國公司設備 保數據安全
				 
                小米降噪藍牙耳機Necklace分享：聽一首歌 讀懂一個故事
				 
                石頭智能洗地機A10 Plus體驗：雙向自清潔治好了我的懶癌
				 
                5月iOS設備性能榜：M1 M2依舊是榜單前五
				 
                從零到英雄：高并發與性能優化的神奇之旅
				 
                JVM優化：實戰OutOfMemoryError異常
				 
                OPPO、vivo、小米等國內廠商Q2在印度智能手機市場份額依舊高達55%
				 
                三翼鳥智能家居亮相電博會，讓用戶體驗更真實
				 
                利用職權私自解除被封帳號 Meta開除20多名員工

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

Elasticsearch 電商場景：明明有這個關鍵詞，但是搜不出來，怎么辦？

1、實戰問題

2、重新梳理一下檢索認知

2.1 分詞和詞典的本質

2.2 全文檢索的本質

2.3 明明有這個關鍵詞，但是搜不出來的本質

3、能不能根治呢？

3.2 導入數據

女孩租房開2小時空調用完100元電費引熱議：5級能耗惹不起月薪過萬電費也交不起

Flowable工作流引擎的科普與實踐

微信語音大揭秘：為什么禁止轉發？

三萬字盤點 Spring 九大核心基礎功能

騰訊蓋樓，字節拆墻

小米汽車電池信息疑似曝光：容量101kWh，支持800V高壓快充

8月見！小米MIX Fold 3獲得3C認證：支持67W快充

自研Exynos回歸！三星Galaxy S24系列將提供Exynos和驍龍雙版本

蘋果公司要求三星和LG Display生產「無邊框」OLED iPhone顯示屏

最新推薦

猜你喜歡

熱門推薦

相關資訊