跳转至

集群诊断

集群诊断是在指定的时间范围内,定位及分析当前集群出现的问题,并将诊断结果和集群相关的监控信息生成网页版的诊断报告。

功能介绍

  • 通过诊断报告可以排查出当前集群出现的问题,并可以对问题进行解决。
  • 快速了解集群内各个节点以及服务、Session、服务配置的基本情况。
  • 根据诊断的报告信息,做出运维建议和集群预警。

入口

  1. 在 Dashboard 企业版顶部导航栏,单击集群管理
  2. 单击目标集群右侧详情
  3. 在左侧导航栏,单击集群信息->集群诊断

创建诊断

  1. 选择诊断的时间范围。支持自定义诊断时间和通过时间区间设置集群诊断的范围,包括:1 小时6 小时12 小时1 天3 天7 天14 天

    Caution

    集群诊断是对集群历史数据的诊断,因此用户设置的诊断范围的结束时间不能超过当前时间。

  2. 确认诊断公式的配置。用户可以自行调整公式。

    公式中的 weight 函数为:weight(value>conditionValue , weightValue),其中的蓝色字体内容支持修改。函数值的计算公式为(value - conditionValue * timeRange)/((maxValue - conditionValue) * timeRange) * weightValue

    • value:当前指标值。
    • conditionValue:满足条件的最低值。
    • timeRange:时间范围天数。对于 avg 类型的指标,该参数值为 1。
    • maxValue:最大指标值。百分比类型指标最大值为 100,其余类型最大值为 conditionValue 的 2 倍。

    例如weight(hit_memory_times > 10 * days, 10),当时间范围选择 2 天、hit_memory_times = 40时,计算公式为(40 - 10 * 2)/((10*2 - 10) * 2) * 10 = 10

  3. 单击开始诊断

    diagnosepage

  4. 当诊断状态变为成功时,表示诊断已经完成,可以查看诊断报告。

查看诊断报告

在诊断列表中,单击目标诊断右侧的详情可以直接查看诊断报告。

集群诊断报告中包含以下内容:

  • 基本信息
    • 展示需要重点关注的信息,例如紧急告警、普通告警、提示等。
    • 展示集群健康分数、CPU 最大平均使用率、内存最大平均使用率等。
  • 节点信息
    • 展示各节点的 Host、实例数量、架构、系统。
    • 展示各节点的 CPU、内存、硬盘、网络流量情况。
  • 服务信息
    • 展示各服务的在线情况、Session 信息。
    • 展示 Graph、Meta、Storage 服务稳定性信息。
  • 配置信息
    • 展示配置变更信息。

详情页面可以下载 HTML 或 PDF 格式的诊断报告。


最后更新: April 3, 2023