跳转至

监控告警

监控告警是对 Nebula Graph 集群的监控指标进行报警的服务。用户可以查看告警信息,设置告警规则和告警接收方。

Alerts

告警信息

用户在集群管理页面左侧导航栏中,单击通知->告警信息可查看触发的告警信息。

  • 支持在搜索框中根据告警的名称搜索目标告警信息。
  • 支持通过日期筛选告警信息。同时支持不同时间段的告警信息筛选,时间段包括 1 小时、6 小时、12 小时、1 天、3 天、7 天和 14 天。
  • 支持根据信息的严重级别、类型、状态,筛选告警信息。用户可单击重置置空所有的筛选项。
  • 用户可标记告警信息的处理状态,告警信息处理状态默认为unsolved,用户可手动标记为处理中已解决状态。

用户不可删除告警信息,但可在nebula-dashboard-ent/config/config.yaml文件中,通过修改messageStore参数的值来设置保存告警信息的天数。Nebula Dashboard 默认保存 90 天内的信息。具体操作,参见部署 Dashboard

告警规则

对集群监控指标进行告警前,需要设置告警规则。用户可以自定义告警规则或者使用 Dashboard 内置的规则。

创建自定义规则

用户创建自定义规则的步骤如下:

  1. 在 Dashboard 顶部导航栏中,单击集群管理,然后在目标集群右侧,单击详情
  2. 集群管理页面左侧导航栏中,单击通知->规则
  3. 规则页面,单击自定义规则,然后单击右侧的创建规则
  4. 设置创建规则的所需的信息。

    1. 基本信息配置页中,设置告警名称、级别和频率。

      参数 说明
      告警名称 为告警规则设置名称。名称只能包含小写字母、数字及连字符(-),且必须以小写字母或数字开头及结尾;最长 253 个字符。
      严重级别 为告警规则设置级别:分为emergencycriticalwarning三个级别。
      警报频率 设置每隔多长时间告警一次,单位分(Min)。
    2. 条件配置页中,设置指标类型、规则和告警持续时间。

      参数 说明
      指标类型 包括节点和服务(graphd、storaged、metad)两种指标类型。
      指标规则 为节点或者服务设置指标规则。详细介绍,参见监控指标
      持续时间 设置警报持续多长时间后触发告警。单位分(Min)。
    3. 消息设置配置页中,可看到系统自动生成的总规则及消息,然后单击提交

      Note

      不建议新手用户修改消息内容,否则创建规则时,可能会报错。

查看自定义规则

自定义规则列表页,用户可进行以下操作:

  • 搜索告警规则,并根据规则的严重级别、类型、指标和状态,筛选规则。
  • 单击重置置空所有的筛选项。
  • 打开和关闭自定义告警规则,开启状态显示 active,关闭状态显示 disable

修改自定义规则

用户可在自定义规则列表中,选中目标规则,单击编辑图标 edit修改规则。

删除自定义规则

用户可在自定义规则列表中,选中目标规则,单击删除图标 delete删除规则。

内置规则

内置规则是 Dashboard 为用户提供的默认规则。用户可打开和关闭内置规则,开启状态显示 active,关闭状态显示 disable

Note

内置规则不可被修改和删除。

告警接收人

用户可为目标集群设置接收告警消息的邮箱,并且查看 Webhook 的地址及 Webhook 的开启状态。有关 Webhook 的介绍,参见全局设置

  1. 在 Dashboard 顶部导航栏中,单击集群管理,然后在目标集群右侧,单击详情
  2. 集群管理页面左侧导航栏中,单击通知->接收人设置
  3. 接收人设置页面:

    • 单击 Mail,填入为目标集群接收告警消息的邮箱地址,然后单击添加
    • 单击 Webhook, 查看 Webhook 的地址及 Webhook 的开启状态。

最后更新: March 7, 2023