跳到主要内容
版本: 4.1

使用 Prometheus 和 Grafana 进行监控

概述

本指南介绍了使用两种流行的工具监控 RabbitMQ:Prometheus,一个监控工具包;以及 Grafana,一个指标可视化系统。

这些工具共同构成了一个强大的工具包,用于长期指标收集和 RabbitMQ 集群监控。虽然 RabbitMQ 管理 UI 也提供了对一部分指标的访问,但从设计上来说,它并不试图成为一个长期的指标收集解决方案。

请先通读主要的 监控指南。当使用 Prometheus 和 Grafana 时,监控原则和可用指标基本上都是相关的。

本指南涵盖的一些关键主题是

Grafana 仪表板遵循许多约定,以使系统更具可观察性,并更容易发现反模式。其设计决策在多个章节中进行了解释

内置 Prometheus 支持

RabbitMQ 附带内置的 Prometheus 和 Grafana 支持。

对 Prometheus 指标收集器的支持包含在 rabbitmq_prometheus 插件中。该插件在专用的 TCP 端口上以 Prometheus 文本格式公开所有 RabbitMQ 指标。

这些指标深入洞察 RabbitMQ 节点和 运行时 的状态。它们使对 RabbitMQ 的行为、使用它的应用程序以及各种基础设施元素的推理更加明智。

Grafana 支持

除非将收集的指标可视化,否则它们并没有太大用处。 RabbitMQ 团队提供了一组 预构建的 Grafana 仪表板,以特定于上下文的方式可视化大量可用的 RabbitMQ 和 运行时 指标。

有许多可用的仪表板

以及其他仪表板。每个仪表板都旨在深入了解系统的特定部分。当一起使用时,它们能够详细解释 RabbitMQ 和应用程序的行为。

请注意,Grafana 仪表板是带有主观判断的,并使用许多约定,例如,更快地发现系统健康问题 或使 跨图表引用 成为可能。像所有 Grafana 仪表板一样,它们也是高度可定制的。它们假设的约定被认为是良好的实践,因此是推荐的。

一个示例

当 RabbitMQ 与 Prometheus 和 Grafana 集成时,RabbitMQ 概览仪表板看起来是这样的

RabbitMQ Overview Dashboard

快速入门

开始之前

本节介绍如何设置一个包含 Prometheus 和 Grafana 仪表板的 RabbitMQ 集群,以及一些将产生一些活动和有意义指标的应用程序。

通过此设置,您将能够与本地运行的 RabbitMQ、Prometheus 和 Grafana 进行交互。您还可以尝试不同的负载配置文件,以了解它们如何组合在一起,理解仪表板、面板等等。

这仅仅是一个示例;rabbitmq_prometheus 插件和我们的 Grafana 仪表板不需要使用下面演示的 Docker Compose。

先决条件

以下说明假设主机已安装了一组特定的工具

  • 用于运行命令的终端
  • Git,用于克隆存储库
  • Docker Desktop,用于在本地使用 Docker Compose
  • Web 浏览器,用于浏览仪表板

它们的安装不在本指南的范围之内。使用

git version
docker info && docker-compose version

在命令行上验证必要的工具是否可用。

克隆包含清单的存储库

第一步是克隆一个 Git 存储库,rabbitmq-server,其中包含运行 RabbitMQ 集群、Prometheus 和一组应用程序所需的清单和其他组件

git clone https://github.com/rabbitmq/rabbitmq-server.git
cd rabbitmq-server/deps/rabbitmq_prometheus/docker

运行 Docker Compose

接下来,使用 Docker Compose 清单来运行预配置的 RabbitMQ 集群、Prometheus 实例和基本工作负载,这将生成 RabbitMQ 概览仪表板中显示的指标

docker-compose -f docker-compose-metrics.yml up -d
docker-compose -f docker-compose-overview.yml up -d

上面的 docker-compose 命令也可以通过 make 目标执行

make metrics overview

当上述命令成功时,将有一个功能齐全的 RabbitMQ 集群和一个 Prometheus 实例,从一组容器中运行的集群中收集指标。

访问 RabbitMQ 概览 Grafana 仪表板

现在,在 Web 浏览器中导航到 http://localhost:3000/dashboards。这将打开一个登录页面。用户名和密码都使用 admin。首次登录时,Grafana 会建议您更改密码。为了本示例的目的,我们建议跳过此步骤。

导航到 RabbitMQ-Overview 仪表板,它看起来像这样

RabbitMQ Overview Dashboard Localhost

恭喜!您现在拥有一个本地运行的、与 Prometheus 和 Grafana 集成的 3 节点 RabbitMQ 集群。现在是了解有关可用仪表板的更多信息的绝佳时机。

RabbitMQ 概览仪表板

管理 UI 概览页面中提供的所有指标都可以在概览 Grafana 仪表板中使用。它们按对象类型分组,重点关注 RabbitMQ 节点和消息速率。

运行状况指示器

仪表板顶部的 单值统计指标 捕获单个 RabbitMQ 集群的运行状况。在本例中,只有一个 RabbitMQ 集群,即 rabbitmq-overview,如仪表板标题正下方的 集群 下拉菜单中所示。

所有 RabbitMQ Grafana 仪表板上的面板都使用不同的颜色来捕获以下指标状态

  • 绿色 表示指标值在健康范围内
  • 蓝色 表示利用率不足或某种形式的性能下降
  • 红色 表示指标值低于或高于被认为是健康的范围

RabbitMQ Overview Dashboard Single-stat

单值统计指标 的默认范围并非对所有 RabbitMQ 部署都是最佳的。例如,在具有许多消费者和/或高预取值的环境中,拥有超过 1,000 个未确认的消息可能完全没问题。默认阈值可以轻松调整以适应手头的工作负载和系统。鼓励用户重新审视这些范围,并根据其工作负载、监控和操作实践以及对误报的容忍度进行调整。

指标和图表

大多数 RabbitMQ 和运行时指标在 Grafana 中表示为图表:它们是随时间变化的值。这是可视化系统某些方面如何变化的最简单和最清晰的方式。基于时间的图表可以轻松理解关键指标的变化:消息速率、集群中每个节点使用的内存或并发连接数。除运行状况指示器外,所有指标都是节点特定的,也就是说,它们表示单个节点上指标的值。

某些指标(例如,在 连接 下分组的面板)是堆叠的,以捕获整个集群的状态。这些指标在各个节点上收集并在视觉上分组,这使得很容易注意到何时例如一个节点服务的连接数量不成比例。

我们会将这样的 RabbitMQ 集群称为不平衡,这意味着至少在某些方面,少数节点执行了大部分工作。

在下面的示例中,连接在大多数时间均匀分布在所有节点上

RabbitMQ Overview Dashboard CONNECTIONS

图表中的颜色标签

所有图表上的所有指标都与特定的节点名称相关联。例如,所有以绿色绘制的指标都用于名称中包含 0 的节点,例如 rabbit@rmq0。这使得很容易将特定节点的指标与跨图表关联起来。第一个节点的指标(假定其名称中包含 0)将始终在所有图表中显示为绿色。

当使用 RabbitMQ 概览仪表板时,记住这一点很重要。如果使用了不同的节点命名约定,则颜色在图表之间将显得不一致:例如,绿色可能在一个图表中表示 rabbit@foo,而在另一个图表中表示 rabbit@bar

在这种情况下,必须更新面板以使用不同的节点命名方案。

图表中的阈值

大多数指标都具有预配置的阈值。它们定义了指标的预期运行边界。在图表上,它们显示为半透明的橙色或红色区域,如下例所示。

RabbitMQ Overview Dashboard Single-stat

橙色 区域中的指标值表示已超过某些预定义的阈值。这可能是可以接受的,尤其是当指标恢复时。接近橙色区域的指标被认为是处于健康状态。

红色 区域中的指标值需要注意,并且可能识别出某种形式的服务降级。例如,红色区域中的指标可能表明 警报 生效,或者节点 文件描述符耗尽 并且无法接受更多连接或打开新文件。

在上面的示例中,我们有一个 RabbitMQ 集群,它以最佳内存容量运行,该容量略高于警告阈值。如果发布的应存储在 RAM 中的消息出现峰值,则节点使用的内存量将增加,并且图表上的指标将下降(因为它指示可用内存量)。

由于系统具有比分配给其托管的 RabbitMQ 节点更多的可用内存,因此我们注意到跌破 0 B。这强调了为操作系统、导致短暂内存使用峰值的内务处理任务和其他进程留出备用内存的重要性。当 RabbitMQ 节点耗尽其允许使用的所有内存时,将触发 内存警报,并且整个集群中的发布者将被阻止。

在图表的右侧,我们可以看到消费者赶上了,并且使用的内存量下降了。这清除了节点上的内存警报,因此,发布者变得未被阻止。然后,集群中此指标和相关指标应恢复到其最佳状态。

对于许多指标,没有“正确”的阈值

请注意,Grafana 仪表板使用的阈值必须具有默认值。无论仪表板开发人员选择什么值,它们都不适合所有环境和工作负载

某些工作负载可能需要更高的阈值,而另一些工作负载可能选择降低阈值。虽然默认值在许多情况下应该足够,但操作员必须审查并调整阈值以适应其特定要求。

图表的相关文档

大多数指标在面板的左上角都有一个帮助图标。

RabbitMQ Overview Dashboard Single-stat

有些指标(例如可用磁盘空间指标)链接到 RabbitMQ 文档 中的专用页面。这些页面包含与指标相关的信息。强烈建议熟悉链接的指南,这将有助于操作员更好地理解指标的含义。

使用图表发现反模式

以红色绘制的任何指标都暗示系统中的反模式。此类图表试图突出显示 RabbitMQ 的次优使用。应调查具有非零指标的红色图表。此类指标可能表明 RabbitMQ 配置中存在问题,或者客户端(发布者消费者)的次优操作。

在下面的示例中,我们可以看到非常低效的 轮询消费者 的使用,即使大多数甚至所有轮询操作都未返回任何消息,它们仍保持轮询。像任何基于轮询的算法一样,它是浪费的,应尽可能避免。

让 RabbitMQ 将消息推送给消费者 效率更高。

RabbitMQ Overview Dashboard Antipatterns

示例工作负载

Prometheus 插件存储库 包含使用 PerfTest 模拟不同工作负载的示例工作负载。它们的目标是练习 RabbitMQ 概览仪表板中的所有指标。这些示例旨在在开发人员和操作员探索各种指标、其阈值和行为时进行编辑和扩展。

要部署工作负载应用程序,请运行 docker-compose -f docker-compose-overview.yml up -d。更新文件后,相同的命令将重新部署该应用程序。

要删除所有工作负载容器,请运行 docker-compose -f docker-compose-overview.yml down

gmake down

更多仪表板:Raft 和 Erlang 运行时

还有两个可用的 Grafana 仪表板:RabbitMQ-RaftErlang-Distribution。它们收集和可视化与 Raft 共识算法(由 Quorum 队列 和其他功能使用)相关的指标,以及更多细粒度的 运行时指标,例如节点间通信缓冲区。

仪表板具有相应的 RabbitMQ 集群和 PerfTest 实例,它们的启动和停止方式与概览仪表板相同。随意尝试 同一 docker 目录 中包含的其他工作负载。

例如,docker-compose-dist-tls.yml Compose 清单旨在强调 节点间通信链接。此工作负载使用大量系统资源。docker-compose-qq.yml 包含一个 Quorum 队列工作负载。

要停止和删除工作负载使用的所有容器,请运行 docker-compose -f [file] down

make down

安装

与上面的 快速入门 不同,本节介绍面向生产使用的监控设置。

我们将假设已配置并运行以下工具

  • 一个 3 节点 RabbitMQ 3.11 集群
  • Prometheus,包括与所有 RabbitMQ 集群节点的网络连接
  • Grafana,包括将上述 Prometheus 实例列为数据源之一的配置

RabbitMQ 配置

集群名称

第一步是为 RabbitMQ 集群指定一个描述性名称,以便可以将其与其他集群区分开来。

要查找集群的当前名称,请使用

rabbitmq-diagnostics -q cluster_status

此命令可以针对任何集群节点执行。如果当前的集群名称具有独特性且合适,请跳过本段的其余部分。要更改集群的名称,请运行以下命令(此处使用的名称只是一个示例)

rabbitmqctl -q set_cluster_name testing-prometheus

启用 rabbitmq_prometheus

接下来,在所有节点上启用 rabbitmq_prometheus 插件

rabbitmq-plugins enable rabbitmq_prometheus

输出将类似于此

rabbitmq-plugins enable rabbitmq_prometheus

Enabling plugins on node rabbit@ed9618ea17c9:
rabbitmq_prometheus
The following plugins have been configured:
rabbitmq_management_agent
rabbitmq_prometheus
rabbitmq_web_dispatch
Applying plugin configuration to rabbit@ed9618ea17c9...
The following plugins have been enabled:
rabbitmq_management_agent
rabbitmq_prometheus
rabbitmq_web_dispatch

started 3 plugins.

要确认 RabbitMQ 现在以 Prometheus 格式公开指标,请使用 curl 或类似工具获取前几行

curl -s localhost:15692/metrics | head -n 3
# TYPE erlang_mnesia_held_locks gauge
# HELP erlang_mnesia_held_locks Number of held locks.
erlang_mnesia_held_locks{node="rabbit@65f1a10aaffa",cluster="rabbit@65f1a10aaffa"} 0

请注意,RabbitMQ 在默认情况下在专用 TCP 端口 15692 上公开指标。

Prometheus 配置

一旦 RabbitMQ 配置为向 Prometheus 公开指标,就应该让 Prometheus 知道应该从哪里抓取 RabbitMQ 指标。有很多方法可以做到这一点。请参阅官方 Prometheus 配置文档。还有一份 Prometheus 入门指南,供初学者使用。

指标收集和抓取间隔

Prometheus 将默认每 60 秒定期抓取(读取)来自其监控系统的指标。 RabbitMQ 指标也会定期更新,默认情况下每 5 秒更新一次。由于 此值是可配置的,请通过在任何节点上运行以下命令来检查指标更新间隔

rabbitmq-diagnostics environment | grep collect_statistics_interval
# => {collect_statistics_interval,5000}

返回的值将以毫秒为单位。

对于生产系统,我们建议 Prometheus 抓取间隔的最小值为 15s,RabbitMQ 的 collect_statistics_interval 值为 10000 (10s)。使用这些值,Prometheus 不会过于频繁地抓取 RabbitMQ,并且 RabbitMQ 不会不必要地更新指标。如果您为 Prometheus 抓取间隔配置了不同的值,请记住在使用 Grafana 中的 rate() 可视化指标时设置适当的间隔 - 抓取间隔的 4 倍被认为是安全的

当使用 RabbitMQ 管理 UI 默认的 5 秒自动刷新时,保持默认的 collect_statistics_interval 设置是最佳的。出于这个原因,这两个间隔默认值均为 5000 毫秒(5 秒)。

要确认 Prometheus 正在从所有节点抓取 RabbitMQ 指标,请确保 Prometheus Targets 页面上的所有 RabbitMQ 端点都为 Up,如下所示

Prometheus RabbitMQ Targets

网络接口和端口

端口使用 prometheus.tcp.port 键配置

prometheus.tcp.port = 15692

可以配置 Prometheus 插件 API 端点将使用的接口,类似于 消息协议侦听器,使用 prometheus.tcp.ip

prometheus.tcp.ip = 0.0.0.0

要检查正在运行的节点使用的接口和端口,请使用 rabbitmq-diagnostics

rabbitmq-diagnostics -s listeners
# => Interface: [::], port: 15692, protocol: http/prometheus, purpose: Prometheus exporter API over HTTP

诸如 lsofssnetstat 等工具

聚合指标和按对象指标

RabbitMQ 可以以两种模式返回 Prometheus 指标

  1. 聚合:指标按名称聚合。即使对象(例如连接和队列)的数量增长,此模式也具有较低的性能开销,并且输出大小恒定。
  2. 按对象:每个对象-指标对的单独指标。对于大量发出统计信息的实体,例如大量连接和队列,这可能会导致非常大的有效负载和大量 CPU 资源用于序列化数据以输出。

对于较大的部署,指标聚合是一种更可预测且实用的选择。通过保持响应大小和时间较小,它在系统中的指标发射对象(连接、通道、队列、消费者等)的数量方面具有良好的可伸缩性。它也出乎意料地易于可视化。

指标聚合的缺点是它会丢失数据保真度。聚合无法实现按对象指标和警报。个体对象指标虽然在某些情况下非常有用,但也难以可视化。考虑一下图表上绘制了 20 万个连接的图表会是什么样子,以及操作员是否能够理解它。

Prometheus 端点:/metrics

默认情况下,Prometheus(和其他 Prometheus 兼容的解决方案)期望指标在 /metrics 路径上可用。 RabbitMQ 默认在此端点上返回聚合指标。

如果您希望在 /metrics 端点上返回按对象(未聚合)指标,请将 prometheus.return_per_object_metrics 设置为 true

# can result in a really excessive output produced,
# only suitable for environments with a relatively small
# number of metrics-emitting objects such as connections and queues
prometheus.return_per_object_metrics = true

Prometheus 端点:/metrics/memory-breakdown

此端点提供类似于 rabbitmq-diagnostics memory_breakdown 输出的指标。它按不同的组件聚合内存使用情况,以提供更详细的内存分配视图。

内存细分是一个单独的端点,因为提供此信息需要迭代所有 Erlang 进程。这在大多数系统中不是问题,但在大型部署中变得相对昂贵。在具有数万个(或更多)连接和/或队列(每个连接和队列至少 1 个进程)的系统中,建议要么完全不使用此端点,要么不经常抓取它。

Prometheus 端点:/metrics/per-object

RabbitMQ 提供了一个专用端点

GET /metrics/per-object

它始终返回按对象指标,而与 prometheus.return_per_object_metrics 的值无关。因此,您可以保留 prometheus.return_per_object_metrics 的默认值 false,并且仍然可以在必要时通过在 Prometheus 目标配置中设置 metrics_path = /metrics/per-object 来抓取按对象指标(有关其他信息,请查看 Prometheus 文档)。

Prometheus 端点:/metrics/detailed

如前所述,在具有大量实体的环境中使用按对象指标在计算上非常昂贵。例如,/metrics/per-object 返回系统中所有实体的所有指标,即使其中许多指标大多数客户端(例如监控工具)未使用。

这就是为什么存在一个单独的按对象指标端点,该端点允许调用者仅查询他们需要的指标

GET /metrics/detailed

默认情况下,它不返回任何指标。所有必需的指标组和虚拟主机过滤器都必须作为查询参数提供。例如,

GET /metrics/detailed?vhost=vhost-1&vhost=vhost-2&family=queue_coarse_metrics&family=queue_consumer_count

将仅返回请求的指标,并排除例如此客户端不感兴趣的所有通道指标。

此端点支持以下参数

  • 零个或多个 family 值。仅返回请求的指标系列。完整列表如下文档所述;
  • 零个或多个 vhost:如果提供,则队列相关指标(queue_coarse_metricsqueue_consumer_countqueue_metricsqueue_delivery_metricsexchange_metricsqueue_exchange_metrics)将仅针对提供的虚拟主机中的队列返回

返回的指标使用不同的前缀:rabbitmq_detailed_(而不是其他端点使用的 rabbitmq_)。这意味着该端点可以与 GET /metrics 一起使用,并且依赖于其他端点的工具不会受到影响。

由于它在几乎所有情况下都查询和服务较少的数据,因此此端点对系统的负载较小。例如,

GET /metrics/detailed?family=queue_coarse_metrics&family=queue_consumer_count

提供了足够的指标来确定有多少消息入队以及这些队列有多少消费者。在某些环境中,此查询的效率比查询 GET /metrics/per-object 仅从响应中获取几个指标高出 60 倍

通用指标

这些是一些通用指标,它们不引用任何特定的队列/连接/等等。

连接/通道/队列流失

connection_churn_metrics 下分组

指标描述
rabbitmq_detailed_connections_opened_total打开的连接总数
rabbitmq_detailed_connections_closed_total关闭或终止的连接总数
rabbitmq_detailed_channels_opened_total打开的通道总数
rabbitmq_detailed_channels_closed_total关闭的通道总数
rabbitmq_detailed_queues_declared_total声明的队列总数
rabbitmq_detailed_queues_created_total创建的队列总数
rabbitmq_detailed_queues_deleted_total删除的队列总数
Erlang VM/磁盘 IO(通过 RabbitMQ)

node_coarse_metrics 下分组

指标描述
rabbitmq_detailed_process_open_fds打开的文件描述符
rabbitmq_detailed_process_open_tcp_sockets打开的 TCP 套接字
rabbitmq_detailed_process_resident_memory_bytes使用的内存(字节)
rabbitmq_detailed_disk_space_available_bytes可用磁盘空间(字节)
rabbitmq_detailed_erlang_processes_used使用的 Erlang 进程
rabbitmq_detailed_erlang_gc_runs_totalErlang 垃圾收集器运行总数
rabbitmq_detailed_erlang_gc_reclaimed_bytes_totalErlang 垃圾收集器回收的内存总字节数
rabbitmq_detailed_erlang_scheduler_context_switches_totalErlang 调度器上下文切换总数

分组在 node_metrics

指标描述
rabbitmq_detailed_process_max_fds打开文件描述符限制
rabbitmq_detailed_process_max_tcp_sockets打开 TCP 套接字限制
rabbitmq_detailed_resident_memory_limit_bytes内存高水位线(字节)
rabbitmq_detailed_disk_space_available_limit_bytes可用磁盘空间低水位线(字节)
rabbitmq_detailed_erlang_processes_limitErlang 进程限制
rabbitmq_detailed_erlang_scheduler_run_queueErlang 调度器运行队列
rabbitmq_detailed_erlang_net_ticktime_seconds节点间心跳间隔
rabbitmq_detailed_erlang_uptime_seconds节点运行时间

分组在 node_persister_metrics

指标描述
rabbitmq_detailed_io_read_ops_totalI/O 读取操作总数
rabbitmq_detailed_io_read_bytes_totalI/O 读取字节总数
rabbitmq_detailed_io_write_ops_totalI/O 写入操作总数
rabbitmq_detailed_io_write_bytes_totalI/O 写入字节总数
rabbitmq_detailed_io_sync_ops_totalI/O 同步操作总数
rabbitmq_detailed_io_seek_ops_totalI/O 寻道操作总数
rabbitmq_detailed_io_reopen_ops_total文件重新打开的总次数
rabbitmq_detailed_schema_db_ram_tx_totalSchema DB 内存事务总数
rabbitmq_detailed_schema_db_disk_tx_totalSchema DB 磁盘事务总数
rabbitmq_detailed_msg_store_read_total消息存储读取操作总数
rabbitmq_detailed_msg_store_write_total消息存储写入操作总数
rabbitmq_detailed_queue_index_read_ops_total队列索引读取操作总数
rabbitmq_detailed_queue_index_write_ops_total队列索引写入操作总数
rabbitmq_detailed_io_read_time_seconds_totalI/O 读取总时间
rabbitmq_detailed_io_write_time_seconds_totalI/O 写入总时间
rabbitmq_detailed_io_sync_time_seconds_totalI/O 同步总时间
rabbitmq_detailed_io_seek_time_seconds_totalI/O 寻道总时间

分组在 ra_metrics

指标描述
rabbitmq_detailed_raft_term_total当前 Raft term 编号
rabbitmq_detailed_raft_log_snapshot_indexRaft 日志快照索引
rabbitmq_detailed_raft_log_last_applied_indexRaft 日志最后应用索引
rabbitmq_detailed_raft_log_commit_indexRaft 日志提交索引
rabbitmq_detailed_raft_log_last_written_indexRaft 日志最后写入索引
rabbitmq_detailed_raft_entry_commit_latency_seconds日志条目提交所花费的时间
认证指标

分组在 auth_attempt_metrics

指标描述
rabbitmq_detailed_auth_attempts_total授权尝试总数
rabbitmq_detailed_auth_attempts_succeeded_total成功认证尝试总数
rabbitmq_detailed_auth_attempts_failed_total失败认证尝试总数

分组在 auth_attempt_detailed_metrics 下。当聚合时,这些数字与 auth_attempt_metrics 中的数字相加结果相同。

指标描述
rabbitmq_detailed_auth_attempts_detailed_total带有来源信息的授权尝试总数
rabbitmq_detailed_auth_attempts_detailed_succeeded_total带有来源信息的成功授权尝试总数
rabbitmq_detailed_auth_attempts_detailed_failed_total带有来源信息的失败授权尝试总数

队列指标

此组中的每个指标都通过其标签指向单个队列。因此,此处响应的大小与节点上托管的队列数量成正比。

以下指标按收集成本从低到高列出。

队列粗略指标

分组在 queue_coarse_metrics

指标描述
rabbitmq_detailed_queue_messages_ready准备好传递给消费者的消息
rabbitmq_detailed_queue_messages_unacked已传递给消费者但尚未确认的消息
rabbitmq_detailed_queue_messages就绪和未确认消息的总和 - 队列总深度
rabbitmq_detailed_queue_process_reductions_total队列进程 reductions 总数
队列交付指标

这些指标与 channel_queue_metrics 下分组的指标类似,但不包括标签中的通道 ID。它们对于单独监视每个队列的状态很有用。

分组在 queue_delivery_metrics

指标描述
rabbitmq_detailed_queue_get_ack_total以手动确认模式使用 basic.get 从队列中获取的消息总数
rabbitmq_detailed_queue_get_total以自动确认模式使用 basic.get 从队列中获取的消息总数
rabbitmq_detailed_queue_messages_delivered_ack_total以手动确认模式从队列传递给消费者的消息总数
rabbitmq_detailed_queue_messages_delivered_total以自动确认模式从队列传递给消费者的消息总数
rabbitmq_detailed_queue_messages_redelivered_total从队列重新传递给消费者的消息总数
rabbitmq_detailed_queue_messages_acked_total队列上消费者确认的消息总数
rabbitmq_detailed_queue_get_empty_total队列上 basic.get 操作未获取到消息的总次数
每个队列的消费者计数

分组在 queue_consumer_count 下。如果请求 queue_metrics,则跳过此指标子集

指标描述
rabbitmq_detailed_queue_consumers队列上的消费者

此指标对于快速检测消费者问题很有用(例如,当没有消费者在线时)。这就是为什么它单独暴露的原因。

详细队列指标

分组在 queue_metrics 下。此组包含每个队列的所有指标,并且生成成本可能相对较高

指标描述
rabbitmq_detailed_queue_consumers队列上的消费者
rabbitmq_detailed_queue_consumer_capacity消费者容量
rabbitmq_detailed_queue_consumer_utilisation与消费者容量相同
rabbitmq_detailed_queue_process_memory_bytesErlang 队列进程使用的内存(字节)
rabbitmq_detailed_queue_messages_ram存储在内存中的就绪和未确认消息
rabbitmq_detailed_queue_messages_ram_bytes存储在内存中的就绪和未确认消息的大小(字节)
rabbitmq_detailed_queue_messages_ready_ram存储在内存中的就绪消息
rabbitmq_detailed_queue_messages_unacked_ram存储在内存中的未确认消息
rabbitmq_detailed_queue_messages_persistent持久消息
rabbitmq_detailed_queue_messages_persistent_bytes持久消息的大小(字节)
rabbitmq_detailed_queue_messages_bytes就绪和未确认消息的大小(字节)
rabbitmq_detailed_queue_messages_ready_bytes就绪消息的大小(字节)
rabbitmq_detailed_queue_messages_unacked_bytes所有未确认消息的大小(字节)
rabbitmq_detailed_queue_messages_paged_out分页到磁盘的消息
rabbitmq_detailed_queue_messages_paged_out_bytes分页到磁盘的消息的大小(字节)
rabbitmq_detailed_queue_head_message_timestamp队列中第一条消息的时间戳(如果有)
rabbitmq_detailed_queue_disk_reads_total队列从磁盘读取消息的总次数
rabbitmq_detailed_queue_disk_writes_total队列将消息写入磁盘的总次数
rabbitmq_detailed_stream_segments流段文件总数

交换机指标

此组中的每个指标都通过其标签指向单个交换机。因此,此处响应的大小与节点上托管的交换机数量成正比。

这些指标与 channel_exchange_metrics 下分组的指标类似,但不包括标签中的通道 ID。它们对于单独监视每个交换机的状态很有用。

分组在 exchange_metrics

指标描述
rabbitmq_detailed_exchange_messages_published_total发布到交换机的消息总数
rabbitmq_detailed_exchange_messages_confirmed_total发布到交换机并确认的消息总数
rabbitmq_detailed_exchange_messages_unroutable_returned_total作为 mandatory 发布到交换机并作为无法路由返回给发布者的消息总数
rabbitmq_detailed_exchange_messages_unroutable_dropped_total作为 non-mandatory 发布到交换机并作为无法路由丢弃的消息总数

队列-交换机指标

此组中的每个指标都通过其标签指向单个队列-交换机对。

这些指标与 channel_queue_exchange_metrics 下分组的指标类似,但不包括标签中的通道 ID。它们对于单独监视每个队列-交换机对的状态很有用。

分组在 queue_exchange_metrics

指标描述
rabbitmq_detailed_queue_exchange_messages_published_total通过交换机发布到队列的消息总数

连接/通道指标

所有这些指标都在其标签中包含通道的 Erlang 进程 ID。此数据不是特别有用,仅用于区分不同通道的指标。

这些指标的生成成本最高。

连接指标

分组在 connection_coarse_metrics

指标描述
rabbitmq_detailed_connection_incoming_bytes_total连接上接收的字节总数
rabbitmq_detailed_connection_outgoing_bytes_total连接上发送的字节总数
rabbitmq_detailed_connection_process_reductions_total连接进程 reductions 总数

分组在 connection_metrics

指标描述
rabbitmq_detailed_connection_incoming_packets_total连接上接收的数据包总数
rabbitmq_detailed_connection_outgoing_packets_total连接上发送的数据包总数
rabbitmq_detailed_connection_pending_packets连接上等待发送的数据包数量
rabbitmq_detailed_connection_channels连接上的通道
通用通道指标

分组在 channel_metrics

指标描述
rabbitmq_detailed_channel_consumers通道上的消费者
rabbitmq_detailed_channel_messages_unacked已交付但尚未确认的消息
rabbitmq_detailed_channel_messages_unconfirmed已发布但尚未确认的消息
rabbitmq_detailed_channel_messages_uncommitted在事务中接收但尚未提交的消息
rabbitmq_detailed_channel_acks_uncommitted事务中尚未提交的消息确认
rabbitmq_detailed_consumer_prefetch每个消费者的未确认消息限制
rabbitmq_detailed_channel_prefetch通道上所有消费者的未确认消息总限制

分组在 channel_process_metrics

指标描述
rabbitmq_detailed_channel_process_reductions_total通道进程 reductions 总数
带有队列/交换机细分的通道指标

分组在 channel_exchange_metrics

指标描述
rabbitmq_detailed_channel_messages_published_total在通道上发布到交换机的消息总数
rabbitmq_detailed_channel_messages_confirmed_total在通道上发布到交换机并确认的消息总数
rabbitmq_detailed_channel_messages_unroutable_returned_total作为 mandatory 发布到交换机并作为无法路由返回给发布者的消息总数
rabbitmq_detailed_channel_messages_unroutable_dropped_total作为 non-mandatory 发布到交换机并作为无法路由丢弃的消息总数

分组在 channel_queue_metrics

指标描述
rabbitmq_detailed_channel_get_ack_total以手动确认模式使用 basic.get 获取的消息总数
rabbitmq_detailed_channel_get_total以自动确认模式使用 basic.get 获取的消息总数
rabbitmq_detailed_channel_messages_delivered_ack_total以手动确认模式传递给消费者的消息总数
rabbitmq_detailed_channel_messages_delivered_total以自动确认模式传递给消费者的消息总数
rabbitmq_detailed_channel_messages_redelivered_total重新传递给消费者的消息总数
rabbitmq_detailed_channel_messages_acked_total消费者确认的消息总数
rabbitmq_detailed_channel_get_empty_totalbasic.get 操作未获取到消息的总次数

分组在 channel_queue_exchange_metrics

指标描述
rabbitmq_detailed_queue_messages_published_total发布到队列的消息总数

虚拟主机和交换机指标

当在共享集群中创建虚拟主机或交换机时,这些附加指标可能很有用。 这些指标是集群范围的,而不是节点本地的。 因此,不得跨集群节点聚合这些指标。

分组在 vhost_status

指标描述
rabbitmq_cluster_vhost_status给定 vhost 是否正在运行

分组在 exchange_names

指标描述
rabbitmq_cluster_exchange_name枚举交换机,不带任何附加信息。此值是集群范围的。exchange_bindings 的更廉价替代方案

分组在 exchange_bindings

指标描述
rabbitmq_cluster_exchange_bindings交换机的绑定数。此值是集群范围的。

流消费者指标

分组在 stream_consumer_metrics

指标描述
rabbitmq_detailed_stream_consumer_max_offset_lag给定流的最高消费者偏移滞后

抓取端点超时

在某些环境中,没有很多发出统计信息的实体(队列、连接、通道),而在另一些环境中,抓取 HTTP 端点可能必须向客户端返回大量数据集(例如,数千行)。在这些情况下,处理请求所花费的时间可能会超过嵌入式 HTTP 服务器和 Prometheus 使用的 HTTP 客户端中的某些超时。

可以使用 prometheus.tcp.idle_timeoutprometheus.tcp.inactivity_timeoutprometheus.tcp.request_timeout 设置来增加插件端 HTTP 请求超时。

  • prometheus.tcp.inactivity_timeout 控制 HTTP(S) 客户端的 TCP 连接不活动超时。当达到超时时,连接将被 HTTP 服务器关闭。
  • prometheus.tcp.request_timeout 控制客户端必须发送 HTTP 请求的时间窗口。
  • prometheus.tcp.idle_timeout 控制客户端必须在 HTTP 请求上下文中发送更多数据(如果有)的时间窗口。

如果在 Prometheus 节点和它抓取的 RabbitMQ 节点之间使用了负载均衡器或代理,则 inactivity_timeoutidle_timeout 值应至少与负载均衡器使用的超时和不活动值一样大,并且通常更大。

这是一个修改超时的配置代码段示例

prometheus.tcp.idle_timeout = 120000
prometheus.tcp.inactivity_timeout = 120000
prometheus.tcp.request_timeout = 120000

Grafana 配置

此设置中的最后一个组件是 Grafana。如果这是您第一次将 Grafana 与 Prometheus 集成,请遵循官方集成指南

在 Grafana 与读取和存储 RabbitMQ 指标的 Prometheus 实例集成后,就可以导入 RabbitMQ 团队维护的 Grafana 仪表板了。请参考 官方 Grafana 教程,了解如何在 Grafana 中导入仪表板。

RabbitMQ 和 Erlang 的 Grafana 仪表板是开源的,并且可以从 rabbitmq-server GitHub 存储库公开获取。

要将 RabbitMQ-Overview 仪表板导入到 Grafana

  1. 转到 Grafana 网站以查看官方 RabbitMQ Grafana 仪表板列表。
  2. 选择 RabbitMQ-Overview 仪表板
  3. 单击 Download JSON 链接或复制仪表板 ID。
  4. 将文件内容复制粘贴到 Grafana 中,然后单击 Load,如下所示
    • 或者,在字段 Grafana.com Dashboard 中粘贴仪表板 ID。

Grafana Import Dashboard

对您想要与此 RabbitMQ 部署一起使用的所有其他 Grafana 仪表板重复此过程。

最后,将 Grafana 使用的默认数据源切换为 prometheus

恭喜!您的 RabbitMQ 现在已通过 Prometheus 和 Grafana 进行监控!

使用 TLS 保护 Prometheus 抓取端点

Prometheus 指标可以使用 TLS 进行保护,类似于其他侦听器。例如,在配置文件

prometheus.ssl.port       = 15691
prometheus.ssl.cacertfile = /full/path/to/ca_certificate.pem
prometheus.ssl.certfile = /full/path/to/server_certificate.pem
prometheus.ssl.keyfile = /full/path/to/server_key.pem
prometheus.ssl.password = password-if-keyfile-is-encrypted
## To enforce TLS (disable the non-TLS port):
# prometheus.tcp.listener = none

要启用带有对等验证的 TLS,请使用类似于以下的配置

prometheus.ssl.port       = 15691
prometheus.ssl.cacertfile = /full/path/to/ca_certificate.pem
prometheus.ssl.certfile = /full/path/to/server_certificate.pem
prometheus.ssl.keyfile = /full/path/to/server_key.pem
prometheus.ssl.password = password-if-keyfile-is-encrypted
prometheus.ssl.verify = verify_peer
prometheus.ssl.depth = 2
prometheus.ssl.fail_if_no_peer_cert = true
## To enforce TLS (disable the non-TLS port):
# prometheus.tcp.listener = none
© . All rights reserved.