集群监控¶

本文主要介绍 Dashboard 的集群监控中的节点监控、服务监控以及可视化的监控大屏。

在 Dashboard 顶部导航栏，单击集群管理，在目标集群右侧单击详情，在左侧导航栏的集群监控下包含节点监控、服务监控和监控大屏。

节点监控¶

单击集群监控->节点监控进入节点监控页面。

用户可快速查看 CPU、Memory、Load、Disk 和 Network In/Out 变化情况。

默认最多可选择 14 天的监控数据进行查看，支持选择时间段，也可以快捷选择最近 1 小时、6 小时、12 小时、1 天、3 天、7 天和 14 天。
默认勾选显示所有实例的监控数据，可以在实例框内调整。
页面的监控数据默认不自动更新，可以调整更新频率让页面自动更新，也可以单击按钮手动更新。
如果需要设置基线，作为参考标准线，可以单击模块右上角的按钮。
如果需要查看某一项更详细的监控指标，可以单击模块右上角的按钮，在示例中选择Load查看详情信息，如下图。
- 可以设置监控时间段、实例、更新频率和基线。
- 可以选择需要查看的机器和监控指标。监控指标详情请参见监控指标说明。

单击集群监控->服务监控进入服务监控页面。

用户可快速查看 Graph、Meta、Storage 服务的信息，右上角显示正常服务和异常服务的数量。

Note

当前企业版的服务监控页仅支持每种服务设置两个监控指标，可以单击模块内的设置按钮进行调整。

默认最多可选择 14 天的监控数据进行查看，支持选择时间段，也可以快捷选择最近 1 小时、6 小时、12 小时、1 天、3 天、7 天和 14 天。
默认勾选显示所有实例的监控数据，可以在实例框内调整。
页面的监控数据默认不自动更新，可以调整更新频率让页面自动更新，也可以单击按钮手动更新。
可以查看集群内所有服务的状态。
如果需要查看某一项更详细的监控指标，可以单击模块右上角的按钮，在示例中选择 Graph 查看详情信息，如下图。
- 可以设置监控时间段、实例、更新频率、周期、聚合方式和基线。
- 可以查看对应服务的所有监控指标。监控指标详情请参见监控指标说明。
- Graph 服务支持一系列基于图空间的监控指标。详情参见下文图空间监控。

Caution

使用图空间指标前，用户需要在 Graph 服务中，设置enable_space_level_metrics为true。具体操作，参见更新配置。

图监控指标不兼容性

如果图空间的名称包括特殊字符，可能会有图空间监控指标数据不显示的问题。

服务监控页面还可以监控图空间级别指标。只有当图空间指标的行为被触发后，用户才能指定图空间查看对应的图空间指标的信息。图空间的监控指标记录不同图空间的数据。目前，只有 Graph 服务支持基于图空间的监控指标。

Dashboard 支持的图空间指标，参见图空间。

graph-metrics

Dashboard 企业版的可视化监控大屏帮助用户一目了然地把握集群的健康状态、服务及节点信息。

单击集群监控->监控大屏进入监控大屏页面。

tv-dashboard

大屏区域	显示信息
中间区域上方	1. 集群的健康度，为集群的健康打分。关于打分规则，参见下文 Note 说明。 2. 运行的节点信息和数量、集群中运行中的服务个数和异常服务的个数。 3. 当前时间的节点 CPU 和内存使用率。 4. 告警信息。系统按照告警消息的严重级别（emergency>critical>warning）展示最近触发的 5 条告警消息。更多信息，参见监控告警。
中间区域下方	在不同时间段 4 个 Graph 服务指标的监控信息。4 个指标分别是： 1. num_active_sessions 2. num_slow_queries 3. num_active_queries 4. num_query_errors
左侧区域	1. 集群的每秒查询率 QPS (Query Per Second)。 2. 在不同时间段两个 Storage 服务指标的监控信息。两个指标分别是 add_edges_latency_us、add_vertices_latency_us。
右侧区域	在不同时间段节点相关指标的信息，指标包括： 1. cpu_utilization 2. memory_utilization 3. load_1m 4. disk_readbytes 5. disk_writebytes

有关监控指标的具体信息，参见监控指标说明。

Note

集群的健康打分规则如下：

最后更新: February 23, 2023