當前位置：首頁 > 科技 > 軟件

阿里一面：如何將重復性比較高的 String 類型的地址信息從 20GB 降到幾百兆？

來源：責編：時間：2024-04-15 18:17:16 220觀看

導讀這次應該是互聯網及軟件行業的第三次寒潮，大家在寒潮中一定要繼續保持學習，寒潮挺過去以后還是會迎來新的發展機遇。有粉絲去阿里面試，跟碼哥分享了其中一題面試問題「如何將重復性比較高的 String 類型的地址信息從 20G

這次應該是互聯網及軟件行業的第三次寒潮，大家在寒潮中一定要繼續保持學習，寒潮挺過去以后還是會迎來新的發展機遇。

有粉絲去阿里面試，跟碼哥分享了其中一題面試問題「如何將重復性比較高的 String 類型的地址信息從 20GB 降到幾百兆？」。

今天，碼哥從多個角度帶你完全攻克這個知識點，讓面試官眼前一亮。

切入正文......

莫慌，今天給大家見識一下不一樣的 String，從根上拿捏直達 G 點。

并且碼哥分享一個例子：通過性能調優我們能實現百兆內存輕松存儲幾十 G 數據。

String對象是我們每天都「摸」的對象類型，但是她的性能問題我們卻總是忽略。

愛她，不能只會簡單一起玩耍，要深入了解String 的內心深處，做一個「心有猛虎，細嗅薔薇」的暖男。

通過以下幾點分析，我們一步步揭開她的衣裳，直達內心深處，提升一個 Level，讓 String 直接起飛。

String 身體解密

想要深入了解，就先從基本組成開始……

「String 締造者」對 String 對象做了大量優化來節省內存，從而提升 String 的性能：

圖片

Java 6 及之前

數據存儲在 char[]數組中，String通過 offset 和 count兩個屬性定位 char[] 數據獲取字符串。

這樣可以高效快速的定位并共享數組對象，并且節省內存，但是有可能導致內存泄漏。

共享 char 數組為啥可能會導致內存泄漏呢？

String(int offset, int count, char value[]) {    this.value = value;    this.offset = offset;    this.count = count;}public String substring(int beginIndex, int endIndex) {    //check boundary    return  new String(offset + beginIndex, endIndex - beginIndex, value);}

調用 substring() 的時候雖然創建了新的字符串，但字符串的值 value 仍然指向的是內存中的同一個數組，如下圖所示：

圖片

如果我們僅僅是用 substring 獲取一小段字符，而原始 string字符串非常大的情況下，substring 的對象如果一直被引用。

此時 String 字符串也無法回收，從而導致內存泄露。

如果有大量這種通過 substring 獲取超大字符串中一小段字符串的操作，會因為內存泄露而導致內存溢出。

JDK7、8

去掉了 offset 和 count兩個變量，減少了 String 對象占用的內存。

substring 源碼：

public String(char value[], int offset, int count) {    this.value = Arrays.copyOfRange(value, offset, offset + count);}public String substring(int beginIndex, int endIndex) {    int subLen = endIndex - beginIndex;    return new String(value, beginIndex, subLen);}

substring() 通過 new String() 返回了一個新的字符串對象，在創建新的對象時通過 Arrays.copyOfRange() 深度拷貝了一個新的字符數組。

如下圖所示：

圖片

String.substring 方法不再共享 char[]數組的數據，解決了可能內存泄漏的問題。

Java 9

將 char[]字段改為 byte[]，新增 coder屬性。

碼哥，為什么這么改呢？

一個 char 字符占 2 個字節，16 位。存儲單字節編碼內的字符（占一個字節的字符）就顯得非常浪費。

為了節約內存空間，于是使用了 1 個字節占 8 位的 byte 數組來存放字符串。

勤儉節約的女神，誰不愛……

新屬性 coder 的作用是：在計算字符串長度或者使用 indexOf（）方法時，我們需要根據編碼類型來計算字符串長度。

coder 的值分別表示不同編碼類型：

0：表示使用 Latin-1 （單字節編碼）；
1：使用UTF-16。

String 的不可變性

了解了String 的基本組成之后，發現 String 還有一個比外在更性感的特性，她被 final關鍵字修飾，char 數組也是。

圖片

我們知道類被 final 修飾代表該類不可繼承，而 char[]被 final+private 修飾，代表了 String 對象不可被更改。

String 對象一旦創建成功，就不能再對它進行改變。

Chaya：“String class 對象使用 final 修飾有什么好處？”

安全性

當你在調用其他方法時，比如調用一些系統級操作指令之前，可能會有一系列校驗。

如果是可變類的話，可能在你校驗過后，它的內部的值又被改變了，這樣有可能會引起嚴重的系統崩潰問題。

高性能緩存

String不可變之后就能保證 hash值得唯一性，使得類似 HashMap容器才能實現相應的 key-value 緩存功能。

實現字符串常量池

由于不可變，才得以實現字符串常量池。

字符串常量池指的是在創建字符串的時候，先去「常量池」查找是否創建過該「字符串」；

如果有，則不會開辟新空間創建字符串，而是直接把常量池中該字符串的引用返回給此對象。

創建字符串的兩種方式：

String str1 = “碼哥字節”;
String str2 = new String(“碼哥字節”);

當代碼中使用第一種方式創建字符串對象時，JVM 首先會檢查該對象是否在字符串常量池中，如果在，就返回該對象引用。

否則新的字符串將在常量池中被創建，并返回該引用。

這樣可以減少同一個值的字符串對象的重復創建，節約內存。

第二種方式創建，在編譯類文件時，"碼哥字節" 字符串將會放入到常量結構中，在類加載時，“碼哥字節" 將會在常量池中創建；

在調用 new 時，JVM 命令將會調用 String 的構造函數，在堆內存中創建一個 String 對象，同時該對象指向「常量池」中的“碼哥字節”字符串，str 指向剛剛在堆上創建的 String 對象；

如下圖：

圖片

什么是對象和對象引用呀？

str 屬于方法棧的字面量，它指向堆中的 String 對象，并不是對象本。

對象在內存中是一塊內存地址，str 則是指向這個內存地址的引用。

也就是說 str 并不是對象，而只是一個對象引用。

碼哥，字符串的不可變到底指的是什么呀？

String str = "Java";str = "Java,yyds"

第一次賦值「Java」，第二次賦值「Java,yyds」，str 值確實改變了，為什么我還說 String 對象不可變呢？

這是因為 str 只是 String 對象的引用，并不是對象本身。

真正的對象依然還在內存中，沒有被改變。

優化實戰

了解了 String 的對象實現原理和特性，是時候要深入女神內心，結合實際場景，如何更上一層樓優化 String 對象的使用。

大量字符串拼接對象如何優化

既然 String 對象是不可變，所以我們在頻繁拼接字符串的時候是否意味著創建多個對象呢？

String str = "癩蛤蟆撩青蛙" + "長的丑" + "玩的花";

上面你的代碼，你是不是以為先生成「癩蛤蟆撩青蛙」對象，再生成「癩蛤蟆撩青蛙長的丑」對象，最后生成「癩蛤蟆撩青蛙長得丑玩的花」對象。

實際運行中，只有一個對象生成。

Chaya：這是為什么呢？

雖然代碼寫的丑陋，但是編譯器自動優化了代碼。再看下面例子：

String str = "小青蛙";for(int i=0; i<1000; i++) {     str += i;}

上面的代碼編譯后，你可以看到編譯器同樣對這段代碼進行了優化。

Java 在進行字符串的拼接時，JVM 編譯器會把上述代碼優化，偏向使用 StringBuilder，這樣可以提高程序的效率。優化后的代碼如下。

String str = "小青蛙";for(int i=0; i<1000; i++) {            str = (new StringBuilder(String.valueOf(str))).append(i).toString();}

即使如此，還是循環內重復創建 StringBuilder對象。

敲黑板

所以做字符串拼接的時候，我建議你還是要顯示地使用 String Builder 來提升系統性能。

如果在多線程編程中，String 對象的拼接涉及到線程安全，你可以使用 StringBuffer。

重復性高的 String 信息優化

重點在于使用運用 intern 節省內存。直接看intern() 方法的定義與源碼：

圖片

intern() 是一個本地方法，它的定義中說的是，當調用 intern 方法時，如果字符串常量池中已經包含此字符串，則直接返回此字符串的引用。

否則將此字符串添加到常量池中，并返回字符串的引用。

如果不包含此字符串，先將字符串添加到常量池中，再返回此對象的引用。

Chaya：什么情況下適合使用 intern() 方法？

Twitter 工程師曾分享過一個 String.intern() 的使用示例，Twitter 每次發布消息狀態的時候，都會產生一個地址信息，以當時 Twitter 用戶的規模預估，服務器需要 20G 的內存來存儲地址信息。

public class Location {    private String city;    private String region;    private String countryCode;    private double longitude;    private double latitude;}

考慮到其中有很多用戶在地址信息上是有重合的，比如，國家、省份、城市等，這時就可以將這部分信息單獨列出一個類，以減少重復，代碼如下：

public class SharedLocation {  private String city;  private String region;  private String countryCode;}public class Location {  private SharedLocation sharedLocation;  double longitude;  double latitude;}

通過優化，數據存儲大小減到了 20G 左右。

但對于內存存儲這個數據來說，依然很大，怎么辦呢？

Twitter 工程師使用 String.intern() 使重復性非常高的地址信息存儲大小從 20G 降到幾百兆，從而優化了 String 對象的存儲。

核心代碼如下：

SharedLocation sharedLocation = new SharedLocation();sharedLocation.setCity(messageInfo.getCity().intern());sharedLocation.setCountryCode(messageInfo.getRegion().intern());sharedLocation.setRegion(messageInfo.getCountryCode().intern());

弄個簡單例子方便理解：

String a =new String("abc").intern();String b = new String("abc").intern();System.out.print(a==b);

輸出結果：true。

在加載類的時候會在常量池中創建一個字符串對象，內容是「abc」。

創建局部 a 變量時，調用 new Sting() 會在堆內存中創建一個 String 對象，String 對象中的 char 數組將會引用常量池中字符串。

在調用 intern 方法之后，會去常量池中查找是否有等于該字符串對象的引用，有就返回引用。

創建 b 變量時，調用 new Sting() 會在堆內存中創建一個 String 對象，String 對象中的 char 數組將會引用常量池中字符串。

在調用 intern 方法之后，會去常量池中查找是否有等于該字符串對象的引用，有就返回引用給局部變量。

而剛在堆內存中的兩個對象，由于沒有引用指向它，將會被垃圾回收。

所以 a 和 b 引用的是同一個對象。

字符串分割優化

split() 方法使用了正則表達式實現了其強大的分割功能，而正則表達式的性能是非常不穩定的。

使用不恰當會引起回溯問題，很可能導致 CPU 居高不下。

Java 正則表達式使用的引擎實現是 NFA（Non deterministic Finite Automaton，確定型有窮自動機）自動機，這種正則表達式引擎在進行字符匹配時會發生回溯（backtracking），而一旦發生回溯，那其消耗的時間就會變得很長，有可能是幾分鐘，也有可能是幾個小時，時間長短取決于回溯的次數和復雜度。

所以我們應該慎重使用 split() 方法，我們可以用String.indexOf()方法代替 split() 方法完成字符串的分割。

最后，出一個問題給大家，歡迎在評論區留言。

通過三種不同的方式創建了三個對象，再依次兩兩匹配，每組被匹配的兩個對象是否相等？代碼如下：

String str1 = "abc";String str2 = new String("abc");String str3 = str2.intern();assertSame(str1 == str2);assertSame(str2 == str3);assertSame(str1 == str3)

博主簡介

碼哥，9 年互聯網公司后端工作經驗，InfoQ 簽約作者、51CTO Top 紅人，阿里云開發者社區專家博主，目前擔任后端架構師主責，擅長 Redis、Spring、Kafka、MySQL技術和云原生微服務。

本文鏈接：http://www.tebozhan.com/showinfo-26-83641-0.html阿里一面：如何將重復性比較高的 String 類型的地址信息從 20GB 降到幾百兆？

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：首屏時間，你說你優化了，那你倒是計算出來給我看啊！

下一篇：深入理解Transformer技術原理

標簽：

熱門焦點

三言兩語說透柯里化和反柯里化

JavaScript中的柯里化(Currying)和反柯里化(Uncurrying)是兩種很有用的技術，可以幫助我們寫出更加優雅、泛用的函數。本文將首先介紹柯里化和反柯里化的概念、實現原理和應用
19個 JavaScript 單行代碼技巧，讓你看起來像個專業人士

今天這篇文章跟大家分享18個JS單行代碼，你只需花幾分鐘時間，即可幫助您了解一些您可能不知道的 JS 知識，如果您已經知道了，就當作復習一下，古人云，溫故而知新嘛。現在，我們就開始今
Temu起訴SHEIN，跨境電商戰事升級

來源 | 伯虎財經（bohuFN）作者 | 陳平安日前據外媒報道，拼多多旗下跨境電商平臺Temu正對競爭對手SHEIN提起新訴訟，訴狀稱Shein“利用市場支配力量強迫服裝廠商與之簽訂獨家
最“俊美”淘寶賣家，靠直播和短視頻圈粉，上架秒光，年銷3000萬

來源 | 電商在線文｜易琬玉編輯｜斯問受訪店鋪：Ringdoll戒之人形圖源：微博@御座的黃山、“Ringdoll戒之人形”淘寶店鋪有關外貌的評價，黃山已經聽累了。生于1985年的他，哪
年輕人的“職場羞恥感”，無處不在

作者：馮曉亭陶淘李欣張琳馬舒葉來源：燃次元“人在職場，應該選擇什么樣的著裝？”近日，在網絡上，一個與著裝相關的帖子引發關注，在該帖子里，一位在高級寫字樓亞洲金
微博大門常打開，迎接海外畫師漂洋東渡

作者:互聯網那些事“起猛了，我能看得懂日語了”。“為什么日本人說話我能聽懂？”“中文不像中文，日語不像日語，但是我竟然看懂了”…&hell
AI芯片初創公司Tenstorrent獲三星和現代1億美元投資

Tenstorrent是一家由芯片行業資深人士Jim Keller領導的加拿大初創公司，專注于開發人工智能芯片，該公司周三表示，已經從現代汽車集團和三星投資基金等
電博會上海爾智家模擬500平大平層，還原生活空間沉浸式體驗

電博會為了更好地讓參展觀眾真正感受到智能家居的絕妙之處，海爾智家的程傳嶺先生同樣介紹了展會上海爾智家的模擬500平大平層，還原生活空間沉浸式體驗。程傳
親歷馬斯克血洗Twitter，硅谷的苦日子在后頭

文/劉哲銘　　編輯/李薇　　馬斯克再次揮下裁員大刀。　　美國時間11月14日，Twitter約4400名外包員工遭解雇，此次被解雇的員工的主要工作為內容審核等。此前，T

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

阿里一面：如何將重復性比較高的 String 類型的地址信息從 20GB 降到幾百兆？

String 身體解密

Java 6 及之前

JDK7、8

Java 9

String 的不可變性

優化實戰

大量字符串拼接對象如何優化

重復性高的 String 信息優化

字符串分割優化

博主簡介

三言兩語說透柯里化和反柯里化

19個 JavaScript 單行代碼技巧，讓你看起來像個專業人士

Temu起訴SHEIN，跨境電商戰事升級

最“俊美”淘寶賣家，靠直播和短視頻圈粉，上架秒光，年銷3000萬

年輕人的“職場羞恥感”，無處不在

微博大門常打開，迎接海外畫師漂洋東渡

AI芯片初創公司Tenstorrent獲三星和現代1億美元投資

電博會上海爾智家模擬500平大平層，還原生活空間沉浸式體驗

親歷馬斯克血洗Twitter，硅谷的苦日子在后頭

最新推薦

猜你喜歡

熱門推薦

相關資訊