跳转至

集群监控

本文主要介绍 Dashboard 的集群监控中的节点监控、服务监控以及可视化的监控大屏。

在 Dashboard 顶部导航栏,单击集群管理,在目标集群右侧单击详情,在左侧导航栏的集群监控下包含节点监控服务监控监控大屏

节点监控

单击集群监控->节点监控->总览进入节点监控总览页面。

用户可快速查看 CPU、Memory、Load、Disk 和 Network In/Out 变化情况。

  • 默认最多可选择 14 天的监控数据进行查看,支持选择时间段,也可以快捷选择最近 1 小时、6 小时、12 小时、1 天、3 天、7 天和 14 天。
  • 默认勾选显示所有实例的监控数据,可以在实例框内调整。
  • 页面的监控数据默认不自动更新,可以调整更新频率让页面自动更新,也可以单击setup按钮手动更新。
  • 如果需要设置基线,作为参考标准线,可以单击模块右上角的setup 按钮。
  • 如果需要查看某一项更详细的监控指标,可以单击模块右上角的watch 按钮,在示例中选择Load查看详情信息,如下图。

    load

    • 可以设置监控时间段、实例、更新频率和基线。
    • 可以搜索和勾选指标。监控指标详情请参见监控指标说明
    • 可以暂时隐藏不需要查看的节点。
    • 可以单击watch 按钮查看指标详情。

服务监控

单击集群监控->服务监控->总览进入服务监控总览页面。

用户可快速查看 Graph、Meta、Storage 服务的信息,右上角显示正常服务和异常服务的数量。

Note

当前企业版的服务监控页仅支持每种服务设置两个监控指标,可以单击模块内的设置按钮进行调整。

  • 默认最多可选择 14 天的监控数据进行查看,支持选择时间段,也可以快捷选择最近 1 小时、6 小时、12 小时、1 天、3 天、7 天和 14 天。
  • 默认勾选显示所有实例的监控数据,可以在实例框内调整。
  • 页面的监控数据默认不自动更新,可以调整更新频率让页面自动更新,也可以单击setup按钮手动更新。
  • 可以查看集群内所有服务的状态。
  • 如果需要查看某一项更详细的监控指标,可以单击模块右上角的watch 按钮,在示例中选择 Graph 查看详情信息,如下图。

    service

    • 可以设置监控时间段、实例、更新频率、周期、聚合方式和基线。
    • 可以搜索和勾选指标。监控指标详情请参见监控指标说明
    • 可以暂时隐藏不需要查看的节点。
    • 可以单击watch 按钮查看指标详情。
    • Graph 服务支持一系列基于图空间的监控指标。详情参见下文图空间监控

图空间监控

Caution

使用图空间指标前,用户需要在 Graph 服务中,设置enable_space_level_metricstrue。具体操作,参见更新配置

图监控指标不兼容性

如果图空间的名称包括特殊字符,可能会有图空间监控指标数据不显示的问题。

服务监控页面还可以监控图空间级别指标。只有当图空间指标的行为被触发后,用户才能指定图空间查看对应的图空间指标的信息。图空间的监控指标记录不同图空间的数据。目前,只有 Graph 服务支持基于图空间的监控指标。

Dashboard 支持的图空间指标,参见图空间

graph-metrics

可视化监控大屏

Dashboard 企业版的可视化监控大屏帮助用户一目了然地把握集群的健康状态、服务及节点信息。

单击集群监控->监控大屏进入监控大屏页面。

tv-dashboard

大屏区域 显示信息
中间区域上方 1. 集群的健康度,为集群的健康打分。关于打分规则,参见下文 Note 说明。
2. 运行的节点信息和数量、集群中运行中的服务个数和异常服务的个数。
3. 当前时间的节点 CPU 和内存使用率。
4. 告警信息。系统按照告警消息的严重级别(emergency>critical>warning)展示最近触发的 5 条告警消息。更多信息,参见监控告警
中间区域下方 在不同时间段 4 个 Graph 服务指标的监控信息。4 个指标分别是:
1. num_active_sessions
2. num_slow_queries
3. num_active_queries
4. num_query_errors
左侧区域 1. 集群的每秒查询率 QPS (Query Per Second)。
2. 在不同时间段两个 Storage 服务指标的监控信息。两个指标分别是 add_edges_latency_us、add_vertices_latency_us。
右侧区域 在不同时间段节点相关指标的信息,指标包括:
1. cpu_utilization
2. memory_utilization
3. load_1m
4. disk_readbytes
5. disk_writebytes

有关监控指标的具体信息,参见监控指标说明

Note

集群的健康打分规则如下:

  • 最高 100 分,最低 13 分。
  • 当 100≥健康度≥80,分数为蓝色;当 80>健康度≥60,分数为黄色;当健康度<60,分数为红色。
  • 算法:(1-异常服务数/总服务数)*100%。
  • 除第一个出现的emergency级别的告警扣 40 分外,其余emergency级别及其他级别的告警每个扣 10 分。

最后更新: July 6, 2023