當前位置：首頁 > 科技 > 軟件

高可用架構下 B 站、小紅書崩了？對于阿里回應，網友認為裁員裁到大動脈

來源：責編：時間：2024-07-03 10:12:22 193觀看

導讀大家好，我是碼哥，可以叫我靚仔。作為靚仔，是應該經常打開 B 站的，畢竟里面很多美好的“東西”，結果出現網絡錯誤，我以為由于日夜觀摩 B 站的視頻導致流量超了。吃瓜雖好，可不要貪杯。我們的重點是根據 B 站、小紅書服務故障

大家好，我是碼哥，可以叫我靚仔。

作為靚仔，是應該經常打開 B 站的，畢竟里面很多美好的“東西”，結果出現網絡錯誤，我以為由于日夜觀摩 B 站的視頻導致流量超了。

吃瓜雖好，可不要貪杯。我們的重點是根據 B 站、小紅書服務故障來聊聊高可用架構的一些設計思路。

B 站、小紅書崩了

在 2020-07-02 上午 10 點~11 點左右，B 站和小紅書都崩了，出現了不同程度的故障。

打開微博，看到 #B 站（嗶哩嗶哩）、小紅書崩了# 的話題相繼登上熱搜。

圖片

還有網友反映小紅書首頁內容無法刷新。有的則表示刷出來的內容也不是我的推薦。

圖片

@酷安網也發文表示網站崩了。隨后，阿里云客戶服務中心回復：北京時間 2024 年 07 月 02 日 10:04，阿里云監控發現上海地域可用區 N 網絡訪問出現異常，阿里云工程師正在緊急處理中。

圖片

B 站、小紅書崩了之后，對于阿里云的回應，網友認為裁員裁到大動脈了有網友認為，這次是阿里云裁員裁到大動脈了。

碼哥跳動

Infoq簽約作者，51CTO Top紅人，阿里云開發者社區專家博主，擔任后端架構師職責，擅長 Redis，Spring，Kafka，MySQL技術和云原生微服務。愿大家擁抱硬核技術和對象，面向人民幣編程。

169篇原創內容

公眾號

高可用架構

言歸正傳，吃瓜歸吃瓜，我們應該從阿里云的網絡切換故障，看到一些高可用的解決方案。

雖然網絡故障，B 站、并不是所有的網頁打不開，而且系統并沒有垮掉，依然返回相關錯誤信息或者頁面給用戶。我們也能從里面了解到大廠工程師如何應對此問題的解決方案。

從這次的故障可以看出，B 站和小紅書的系統均滿足系統服務可降級。

B 站的做法是提供一個加載錯誤的頁面，引導用戶重試。

圖片

小紅書的降級策略有所不同，因為其表現為無法刷新內容，首頁刷出來的內容不是用戶推薦的。

所以小紅書的降級策略是使用了緩存作為降級，比如平臺無法通過網絡獲取用戶推薦的信息流時，就直接從緩存系統或者服務器本地的緩存中獲取一些內容返回給用戶。

這些也是只碼哥根據有限的信息哥大家聊聊，估計不久就會有官方的反饋了。本次故障相當于驗證了一把 B 站和小紅書的高可用是否足夠強大。

故障來源

系統宕機原因主要有以下：

無計劃的

系統級故障，包括主機、操作系統、中間件、數據庫、網絡、電源以及外圍設備。
數據和中介的故障，包括人員誤操作、硬盤故障、數據亂了。
還有自然災害、人為破壞，以及供電問題等。

有計劃的

日常任務：備份，容量規劃，用戶和安全管理，后臺批處理應用。
運維相關：數據庫維護、應用維護、中間件維護、操作系統維護、網絡維護。
升級相關：數據庫、應用、中間件、操作系統、網絡，包括硬件升級。

分個類。

網絡問題。網絡鏈接出現問題，網絡帶寬出現擁塞……
性能問題。數據庫慢 SQL、Java Full GC、硬盤 IO 過大、CPU 飆高、內存不足……
安全問題。被網絡攻擊，如 DDoS 等。
運維問題。系統總是在被更新和修改，架構也在不斷地被調整，監控問題……
管理問題。沒有梳理出關鍵服務以及服務的依賴關系，運行信息沒有和控制系統同步……
硬件問題。硬盤損壞、網卡出問題、交換機出問題、機房掉電、挖掘機問題……

高可用架構原則

系統出現問題的地方很多，解決的方式各不相同，想要解決問題，先說下高可用的總體解決思路，才能更好的解決問題。

避免發生

想要系統高可用，我們要想辦法避免問題的發生。比如說，我們可以通過 UPS（Uninterruptible Power System，不間斷電源）來避免服務器斷電。

故障轉移

如果問題真的發生了，我們要考慮的是如何故障轉移，比如說，我們可以通過冗余部署，當一個節點發生故障時，用其它正常的節點來代替問題節點。

主從復制

幾乎所有的存儲系統都提供了主從復制的功能，例如 MySQL、Redis、MongoDB 等。

主從復制要點：

存在一主多從。
主機負責讀&寫，并定期復制數據給從機。
從機只負責讀。
一旦主機宕機，可以通過人工手段，將其中一個從節點作為主節點。

圖片

圖片來源https://raw.githubusercontent.com/dunwu/images/master/snap/20200614184921.png

分片集群

主從復制有一個問題，每個機器上存儲的都是全量數據。

但是，單機的數據存儲量總是有上限的，當數據量上升為 TB 級甚至 PB 級數據，單機終究有無法支撐的時候。這時，就需要對數據進行分片（sharding）。

分片后的節點可以視為一個獨立的子集，每個子集也要保證高可用降級：系統拋棄部分不重要的功能，比如不發送短信通知，以此確保核心功能不受影響。。

圖片

圖片來源https://raw.githubusercontent.com/dunwu/images/master/snap/20200614184921.png

服務可降級

如果故障無法正面方式解決，那我們要做的就是努力降低故障帶來的影響。比如說流量太大，我們可以通過限流，來保證部分用戶可以正常使用，或者通過業務降級的手段，關閉一些次要功能，保證核心功能仍舊可用。

這次 B 站、小紅書亦是采取了該方案。

限流

限流則是從用戶訪問壓力的角度來考慮如何應對故障。限流指只允許系統能夠承受的訪問量進來，超出系統訪問能力的請求將被丟棄。

降級

降級指系統將某些業務或者接口的功能降低，可以是只提供部分功能，也可以是完全停掉所有功能。比如 B 站返回錯誤引導頁，以此確保核心功能不受影響。

拒絕服務 - 拒絕低優先級應用的調用，減少服務調用并發數，確保核心應用正常使用。或者隨機拒絕部分調用，節約資源，避免要死大家一起死的慘劇。

關閉服務 - 關閉部分不重要的服務，或者服務內部關閉部分不重要的功能，以節約資源。

熔斷

熔斷和降級是兩個比較容易混淆的概念，因為單純從名字上看好像都有禁止某個功能的意思，但其實內在含義是不同的，原因在于降級的目的是應對系統自身的故障，而熔斷的目的是應對依賴的外部系統故障的情況。

我們不去調用出問題的服務，讓系統繞開故障點，就像電路的保險絲一樣，自己熔斷，切斷通路，避免系統資源大量被占用

監控

在實踐中，系統的故障防不勝防，問題的定位和解決也非常的困難，所以，要想全面保障系統的可用性，最重要的手段就是監控。

通過監控，我們可以實時地了解系統的當前狀態，這樣很多時候，業務還沒出問題，我們就可以提前干預，避免事故；而當系統出現問題時，我們也可以借助監控信息，快速地定位和解決問題。

博主簡介

碼哥，9 年互聯網公司后端工作經驗，InfoQ 簽約作者、51CTO Top 紅人，阿里云開發者社區專家博主，目前擔任后端架構師主責，擅長 Redis、Spring、Kafka、MySQL 技術和云原生微服務。

本文鏈接：http://www.tebozhan.com/showinfo-26-98421-0.html高可用架構下 B 站、小紅書崩了？對于阿里回應，網友認為裁員裁到大動脈

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： Python用戶寶典：了解并實現遺傳算法

下一篇：騰訊 2024 上半年累計回購股份金額達 523 億港元，超 2023 全年

標簽：

熱門焦點

小米官宣：2023年上半年出貨量中國第一！

今日早間，小米電視官方微博帶來消息，稱2023年小米電視上半年出貨量達到了中國第一，同時還表示小米電視的巨屏風暴即將開始。“公布一個好消息2023年#小米電視上半年出貨量中國
太卷！Redmi MAX 100英寸電視便宜了：12999元買Redmi史上最大屏

8月5日消息，從小米商城了解到，Redmi MAX 100英寸巨屏電視日前迎來官方優惠，到手價12999元，比發布價便宜了7000元，在大屏電視市場開卷。據了解，Redmi MAX 100
自動化在DevOps中的力量：簡化軟件開發和交付

自動化在DevOps中扮演著重要角色，它提升了DevOps的效能。通過自動化工具和方法，DevOps團隊可以實現以下目標：消除手動和重復性任務。簡化流程。在整個軟件開發生命周期中實現更
小米汽車電池信息疑似曝光：容量101kWh，支持800V高壓快充

7月14日消息，今日一名博主在社交媒體發布了一張疑似小米汽車電池信息的照片，顯示該電池包正是寧德時代麒麟電池，容量為101kWh，電壓為726.7V，可以預測小
OPPO K11樣張首曝：千元機影像“卷”得真不錯！

一直以來，OPPO K系列機型都保持著較為均衡的產品體驗，歷來都是2K價位的明星機型，去年推出的OPPO K10和OPPO K10 Pro兩款機型憑借各自的出色配置，堪稱有
2022爆款：ROG魔霸6 冰川散熱系統持續護航

喜逢開學季，各大商家開始推出自己的新產品，進行打折促銷活動。對于忠實的端游愛好者來說，能夠擁有一款夢寐以求的筆記本電腦是一件十分開心的事。但是現在的
與兆芯合作聯想推出全新旗艦版筆記本電腦開天N7系列

聯想與兆芯合作推出全新聯想旗艦版筆記本電腦開天 N7系列。這個系列采用兆芯KX-6640MA處理器平臺，KX-6640MA 處理器是采用了陸家嘴架構，16nm 工藝，4 核 4 線
電博會上海爾智家模擬500平大平層，還原生活空間沉浸式體驗

電博會為了更好地讓參展觀眾真正感受到智能家居的絕妙之處，海爾智家的程傳嶺先生同樣介紹了展會上海爾智家的模擬500平大平層，還原生活空間沉浸式體驗。程傳
外交部：美方應停止在網絡安全問題上不負責任地指責他國

　中國外交部今天（16日）舉行例行記者會。會上，有記者問，美國情報官員稱，他們正在阻攔來自中國以及其他國家的黑客獲取相關科研成果。中方對此有何評論？對此

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

高可用架構下 B 站、小紅書崩了？對于阿里回應，網友認為裁員裁到大動脈

B 站、小紅書崩了

高可用架構

故障來源

高可用架構原則

避免發生

故障轉移

主從復制

分片集群

服務可降級

限流

降級

熔斷

監控

小米官宣：2023年上半年出貨量中國第一！

太卷！Redmi MAX 100英寸電視便宜了：12999元買Redmi史上最大屏

自動化在DevOps中的力量：簡化軟件開發和交付

小米汽車電池信息疑似曝光：容量101kWh，支持800V高壓快充

OPPO K11樣張首曝：千元機影像“卷”得真不錯！

2022爆款：ROG魔霸6 冰川散熱系統持續護航

與兆芯合作聯想推出全新旗艦版筆記本電腦開天N7系列

電博會上海爾智家模擬500平大平層，還原生活空間沉浸式體驗

外交部：美方應停止在網絡安全問題上不負責任地指責他國

最新推薦

猜你喜歡

熱門推薦

相關資訊