集群诊断¶
集群诊断是在指定的时间范围内,定位及分析当前集群出现的问题,并将诊断结果和集群相关的监控信息生成网页版的诊断报告。
功能介绍¶
- 通过诊断报告可以排查出当前集群出现的问题,并可以对问题进行解决。
- 快速了解集群内各个节点以及服务、Session、服务配置的基本情况。
- 根据诊断的报告信息,做出运维建议和集群预警。
入口¶
- 在 Dashboard 企业版顶部导航栏,单击集群管理。
- 单击目标集群右侧详情。
- 在左侧导航栏,单击分析诊断->集群诊断。
创建诊断¶
-
选择诊断的时间范围。支持自定义诊断时间和通过时间区间设置集群诊断的范围,包括:
1 小时
、6 小时
、12 小时
、1 天
、3 天
、7 天
、14 天
。Caution
集群诊断是对集群历史数据的诊断,因此用户设置的诊断范围的结束时间不能超过当前时间。
-
确认诊断公式的配置。用户可以自行调整公式。
公式中的 weight 函数为:
weight(value>conditionValue , weightValue)
,其中的蓝色字体内容支持修改。函数值的计算公式为(value - conditionValue * timeRange)/((maxValue - conditionValue) * timeRange) * weightValue
。- value:当前指标值。
- conditionValue:满足条件的最低值。
- timeRange:时间范围天数。对于 avg 类型的指标,该参数值为 1。
- maxValue:最大指标值。百分比类型指标最大值为 100,其余类型最大值为 conditionValue 的 2 倍。
例如
weight(hit_memory_times > 10 * days, 10)
,当时间范围选择 2 天、hit_memory_times = 40
时,计算公式为(40 - 10 * 2)/((10*2 - 10) * 2) * 10 = 10
。 -
单击开始诊断。
-
当诊断状态变为成功时,表示诊断已经完成,可以查看诊断报告。
查看诊断报告¶
在诊断列表中,单击目标诊断右侧的详情可以直接查看诊断报告。
集群诊断报告中包含以下内容:
- 基本信息
- 展示需要重点关注的信息,例如紧急告警、普通告警、提示等。
- 展示集群健康分数、CPU 最大平均使用率、内存最大平均使用率等。
- 节点信息
- 展示各节点的 Host、实例数量、架构、系统。
- 展示各节点的 CPU、内存、硬盘、网络流量情况。
- 服务信息
- 展示各服务的在线情况、Session 信息。
- 展示 Graph、Meta、Storage 服务稳定性信息。
- 配置信息
- 展示配置变更信息。
详情页面可以下载 HTML 或 PDF 格式的诊断报告。
最后更新:
April 10, 2023