當前位置：首頁 > 科技 > 軟件

從 Prometheus 到 OpenTelemetry：指標監控的演進與實踐

來源：責編：時間：2024-06-14 17:40:00 178觀看

導讀背景關于 metrics 我最早接觸相關概念的就是 prometheus，它是第二個加入 CNCF（云原生）社區的項目（第一個是 kubernetes），可見在云原生領域 Metrics 指標監控從誕生之初就是一個非常重要的組件。現實也確實如此，如今只要使用

背景

關于 metrics 我最早接觸相關概念的就是 prometheus，它是第二個加入 CNCF（云原生）社區的項目（第一個是 kubernetes），可見在云原生領域 Metrics 指標監控從誕生之初就是一個非常重要的組件。

現實也確實如此，如今只要使用到了 kubernetes 相關的項目，對其監控就是必不可少的。

當然也不止是云原生的項目才需要 Metrics 指標監控，我們任何一個業務都是需要的，不然我們的服務運行對開發運維來說都是一個黑盒，無法知道此時系統的運行情況，因此才需要我們的業務系統將一些關鍵運行指標暴露出來。

圖片

業務數據：比如訂單的增長率、銷售金額等業務數據；同時還有應用自身的資源占用情況：

QPS
Latency
內存
CPU 等信息。

在使用 OpenTelemetry 之前，因為 prometheus 是這部分的絕對標準，所以我們通常都會使用 prometheus 的包來暴露這些指標：

<!-- The client --><dependency>  <groupId>io.prometheus</groupId>  <artifactId>simpleclient</artifactId>  <version>0.16.0</version></dependency><!-- Hotspot JVM metrics--><dependency>  <groupId>io.prometheus</groupId>  <artifactId>simpleclient_hotspot</artifactId>  <version>0.16.0</version></dependency>

暴露一個自定義的指標也很簡單：

import io.prometheus.client.Counter;class YourClass {  static final Counter requests = Counter.build()     .name("requests_total").help("Total requests.").register();  void processRequest() {    requests.inc();    // Your code here.  }}

這是暴露一個單調遞增的指標，prometheus 還提供了其他幾種指標類型：

Counter
Gauge
Histogram

之后我們只需要在 prometheus 中配置一些抓取規則即可：

scrape_configs:  - job_name: 'springboot'    scrape_interval: 10s    static_configs:      - targets: ['localhost:8080'] # Spring Boot ip+port

當然如果是運行在 kubernetes 環境，prometheus 也可以基于服務發現配置一些規則，自動抓取我們的 Pod 的數據，由于不是本文的重點就不過多介紹。

基本組件

在 OpenTelemetry 中自然也提供了 Metrics 這個組件，同時它也是完全兼容 Prometheus，所以我們理解和使用起來并不復雜。

MeterProvider

不同于 prometheus 客戶端中直接提供了 Counter 就可以創建指標了，在 OpenTelemetry 中會提供一個 MeterProvider 的接口，使用這個接口可以獲取 Meter，再使用 Meter 才可以創建 Counter、Gauge、Histogram 等數據。

下面來看看具體如何使用，這里我以 Pulsar 源碼的代碼進行演示：

public InstrumentProvider(OpenTelemetry otel) {      if (otel == null) {          // By default, metrics are disabled, unless the OTel java agent is configured.          // This allows to enable metrics without any code change.        otel = GlobalOpenTelemetry.get();      }    this.meter = otel.getMeterProvider()              .meterBuilder("org.apache.pulsar.client")              .setInstrumentationVersion(PulsarVersion.getVersion())              .build();  }LongCounterBuilder builder = meter.counterBuilder(name)          .setDescription(description)          .setUnit(unit.toString());

Meter Exporter

Meter Exporter 則是一個 OpenTelemetry 獨有的概念，與我們之前講到的一樣：OpenTelemetry 作為廠商無關的平臺，允許我們將數據寫入到任何兼容的產品里。

所以我們在使用 Metrics 時需要指定一個 exporter：

Exporter 類型	作用	備注	參數
OTLP Exporter	通過 OpenTelemetry Protocol（OTLP）發送指標數據到 collect。	默認生產環境中推薦使用，需要將數據發送到支持 OTLP 的后端，如 OpenTelemetry Collector。	-Dotel.metrics.exporter=otlp (default)
Console Exporter	將指標數據打印到控制臺的導出器。	開發和調試，快速查看指標數據。	-Dotel.metrics.exporter=console
Prometheus Exporter	將指標數據以 Prometheus 抓取的格式暴露給 Prometheus 服務。	與 Prometheus 集成，適用于需要 Prometheus 監控的場景，這個可以無縫和以往使用 prometheus 的場景兼容	-Dotel.metrics.exporter=prometheus

Metric Instruments

與 prometheus 類似，OpenTelemetry 也提供了以下幾種指標類型：

Counter：單調遞增計數器，比如可以用來記錄訂單數、總的請求數。
UpDownCounter：與 Counter 類似，只不過它可以遞減。
Gauge：用于記錄隨時在變化的值，比如內存使用量、CPU 使用量等。
Histogram：通常用于記錄請求延遲、響應時間等。

同時每個指標還有以下幾個字段：

Name：名稱，必填。
Kind：類型，必填。
Unit：單位，可選。
Description：描述，可選。

messageInCounter = meter          .counterBuilder(MESSAGE_IN_COUNTER)          .setUnit("{message}")          .setDescription("The total number of messages received for this topic.")          .buildObserver();

還是以 Pulsar 的為例，messageInCounter 是一個記錄總的消息接收數量的 Counter 類型。

subscriptionCounter = meter          .upDownCounterBuilder(SUBSCRIPTION_COUNTER)          .setUnit("{subscription}")          .setDescription("The number of Pulsar subscriptions of the topic served by this broker.")          .buildObserver();

這是記錄一個訂閱者數量的指標，類型是 UpDownCounter，也就是可以增加減少的指標。

private static final List<Double> latencyHistogramBuckets =          Lists.newArrayList(.0005, .001, .0025, .005, .01, .025, .05, .1, .25, .5, 1.0, 2.5, 5.0, 10.0, 30.0, 60.0);DoubleHistogramBuilder builder = meter.histogramBuilder("pulsar.client.producer.message.send.duration")          .setDescription("Publish latency experienced by the application, includes client batching time")          .setUnit(Unit.Seconds.toString())          .setExplicitBucketBoundariesAdvice(latencyHistogramBuckets);

這是一個記錄 Pulsar producer 發送延遲的指標，類型是 Histogram。

backlogQuotaAge = meter          .gaugeBuilder(BACKLOG_QUOTA_AGE)          .ofLongs()          .setUnit("s")          .setDescription("The age of the oldest unacknowledged message (backlog).")          .buildObserver();

這是一個記錄最大 unack 也就是 backlog 時間的指標，類型是 Gauge。

案例

在之前的文章：實戰：如何編寫一個 OpenTelemetry Extensions中講過如何開發一個 OpenTelemetry 的 extension，其實當時我就是開發了一個用于在 Pulsar 客戶端中暴露指標的一個插件。

不過目前 Pulsar 社區已經集成了該功能。

其中的核心代碼與上面講到的類似：

public static void registerObservers() {        Meter meter = MetricsRegistration.getMeter();            meter.gaugeBuilder("pulsar_producer_num_msg_send")                .setDescription("The number of messages published in the last interval")                .ofLongs()                .buildWithCallback(                        r -> recordProducerMetrics(r, ProducerStats::getNumMsgsSent));private static void recordProducerMetrics(ObservableLongMeasurement observableLongMeasurement, Function<ProducerStats, Long> getter) {        for (Producer producer : CollectionHelper.PRODUCER_COLLECTION.list()) {            ProducerStats stats = producer.getStats();            String topic = producer.getTopic();            if (topic.endsWith(RetryMessageUtil.RETRY_GROUP_TOPIC_SUFFIX)) {                continue;            }        observableLongMeasurement.record(getter.apply(stats),                    Attributes.of(PRODUCER_NAME, producer.getProducerName(), TOPIC, topic));        }}

只是這里使用了 buildWithCallback 回調函數，OpenTelemetry 會每隔 30s 調用一次這個函數，通常適用于 Gauge 類型的數據。

java -javaagent:opentelemetry-javaagent.jar /       -Dotel.javaagent.extensinotallow=ext.jar  /     -Dotel.metrics.exporter=prometheus /     -Dotel.exporter.prometheus.port=18180 /     -jar myapp.jar

配合上 Prometheus 的兩個啟動參數就可以在本地 18180 中獲取到指標數據：

curl http://127.0.0.1:18180/metrics

當然也可以直接發往 OpenTelemetry-Collector 中，再由它發往 prometheus，只是這樣需要額外在 collector 中配置一下：

exporters:  debug: {}  otlphttp:    metrics_endpoint: http://promethus:8480/insert/0/opentelemetry/api/v1/pushservice:  pipelines:    metrics:      exporters:      - otlphttp      processors:      - k8sattributes      - batch      receivers:      - otlp

圖片

這樣我們就可以在 Grafana 中通過 prometheus 查詢到數據了。

有一點需要注意，如果我們自定義的指標最好是參考官方的語義和命名規范來定義這些指標名稱。

圖片

比如 OpenTelemetry 的規范中名稱是用 . 來進行分隔的。

切換為 OpenTelemetry 之后自然就不需要依賴 prometheus 的包，取而代之的是 OTel 的包：

compileOnly 'io.opentelemetry:opentelemetry-sdk-extension-autoconfigure-spi:1.34.1'  compileOnly 'io.opentelemetry.instrumentation:opentelemetry-instrumentation-api:1.32.0'

總結

相對來說 Metrics 的使用比 Trace 簡單的多，同時 Metrics 其實也可以和 Trace 進行關聯，也就是 Exemplars，限于篇幅就不在本文展開了，感興趣的可以自行查閱。

參考鏈接：

https://github.com/apache/pulsar/blob/master/pulsar-client/src/main/java/org/apache/pulsar/client/impl/metrics/InstrumentProvider.java
https://opentelemetry.io/docs/specs/semconv/general/metrics/
https://opentelemetry.io/docs/specs/otel/metrics/data-model/#exemplars

本文鏈接：http://www.tebozhan.com/showinfo-26-93865-0.html從 Prometheus 到 OpenTelemetry：指標監控的演進與實踐

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： 23k star超火項目，請求優化寫的一塌糊涂！我直接重構！

下一篇：有點東西，Template可以直接使用Setup語法糖中的變量原來是因為這個

標簽：

熱門焦點

一加Ace2 Pro官宣：普及16G內存引領24G

一加官方今天繼續為本月發布的新機一加Ace2 Pro帶來預熱，公布了內存方面的信息。“淘汰 8GB ，12GB 起步，16GB 普及，24GB 引領，還有呢？#一加Ace2Pro#，2023 年 8 月，敬請期待。”同時
跑分安卓第一！Redmi K60至尊版8月發布！盧偉冰：目標年度性能之王

8月5日消息，Redmi K60至尊版將于8月發布，在此前舉行的戰略發布會上，官方該機將搭載搭載天璣9200+處理器，安兔兔V10跑分超177萬分，是目前安卓陣營最高的分數
印度登月最關鍵一步！月船三號今晚進入環月軌道

8月5日消息，據印度官方消息，月船三號將于北京時間今晚21時30分左右開始近月制動進入環月軌道。這是該探測器能夠成功的最關鍵步驟之一，如果成功將開始圍
一篇聊聊Go錯誤封裝機制

%w 是用于錯誤包裝（Error Wrapping）的格式化動詞。它是用于 fmt.Errorf 和 fmt.Sprintf 函數中的一個特殊格式化動詞，用于將一個錯誤（或其他可打印的值）包裝在一個新的錯誤中。使
在線圖片編輯器，支持PSD解析、AI摳圖等

自從我上次分享一個人開發仿造稿定設計的圖片編輯器到現在，不知不覺已過去一年時間了，期間我經歷了裁員失業、面試找工作碰壁，寒冬下一直沒有很好地履行計劃.....這些就放在日
騰訊VS網易，最卷游戲暑期檔，誰能笑到最后？

作者：無銹缽來源：財經無忌7月16日晚，上海1862時尚藝術中心。伴隨著幻象的精準命中，碩大的熒幕之上，比分被定格在了14：12，被寄予厚望的EDG戰隊以絕對的優勢戰勝了BLG戰隊，拿下了總決
機構稱Q2國內智能手機銷量同比下滑4% vivo份額重回第1

7月29日消息，根據市場調查機構Counterpoint Research公布的最新報告，2023年第2季度中國智能手機銷量同比下降4%，創新自2014年以來第2季度銷量新低。報
首發天璣9200+ iQOO Neo8系列發布首銷售價2299元起

2023年5月23日晚，iQOO Neo8系列正式發布。其中，Neo系列首款Pro之作——iQOO Neo8 Pro強悍登場，限時售價3099元起；價位段最強性能手機iQOO Neo8同期上市
iQOO Neo8 Pro真機諜照曝光：天璣9200+和V1+旗艦雙芯加持

去年10月，iQOO推出了iQOO Neo7系列機型，不僅搭載了天璣9000+，而且是同價位唯一一款天璣9000+直屏旗艦，一經上市便受到了用戶的廣泛關注。在時隔半年后，

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

從 Prometheus 到 OpenTelemetry：指標監控的演進與實踐

背景

基本組件

MeterProvider

Meter Exporter

Metric Instruments

案例

總結

一加Ace2 Pro官宣：普及16G內存引領24G

跑分安卓第一！Redmi K60至尊版8月發布！盧偉冰：目標年度性能之王

印度登月最關鍵一步！月船三號今晚進入環月軌道

一篇聊聊Go錯誤封裝機制

在線圖片編輯器，支持PSD解析、AI摳圖等

騰訊VS網易，最卷游戲暑期檔，誰能笑到最后？

機構稱Q2國內智能手機銷量同比下滑4% vivo份額重回第1

首發天璣9200+ iQOO Neo8系列發布首銷售價2299元起

iQOO Neo8 Pro真機諜照曝光：天璣9200+和V1+旗艦雙芯加持

最新推薦

猜你喜歡

熱門推薦

相關資訊