监控告警¶
监控告警是对 Nebula Graph 集群的监控指标进行报警的服务。用户可以查看告警信息,设置告警规则和告警接收方。
告警信息¶
用户在集群管理页面左侧导航栏中,单击通知->告警信息可查看触发的告警信息。
- 支持在搜索框中根据告警的名称搜索目标告警信息。
- 支持通过日期筛选告警信息。同时支持不同时间段的告警信息筛选,时间段包括 1 小时、6 小时、12 小时、1 天、3 天、7 天和 14 天。
- 支持根据信息的严重级别、类型、状态,筛选告警信息。用户可单击重置置空所有的筛选项。
- 用户可标记告警信息的处理状态,告警信息处理状态默认为
unsolved
,用户可手动标记为处理中
和已解决
状态。
用户不可删除告警信息,但可在nebula-dashboard-ent/config/config.yaml
文件中,通过修改messageStore
参数的值来设置保存告警信息的天数。Nebula Dashboard 默认保存 90 天内的信息。具体操作,参见部署 Dashboard。
告警规则¶
对集群监控指标进行告警前,需要设置告警规则。用户可以自定义告警规则或者使用 Dashboard 内置的规则。
创建自定义规则¶
用户创建自定义规则的步骤如下:
- 在 Dashboard 顶部导航栏中,单击集群管理,然后在目标集群右侧,单击详情。
- 在集群管理页面左侧导航栏中,单击通知->规则。
- 在规则页面,单击自定义规则,然后单击右侧的创建规则。
-
设置创建规则的所需的信息。
-
在基本信息配置页中,设置告警名称、级别和频率。
参数 说明 告警名称 为告警规则设置名称。名称只能包含小写字母、数字及连字符( -
),且必须以小写字母或数字开头及结尾;最长 253 个字符。严重级别 为告警规则设置级别:分为 emergency
、critical
和warning
三个级别。警报频率 设置每隔多长时间告警一次,单位分(Min)。 -
在条件配置页中,设置指标类型、规则和告警持续时间。
参数 说明 指标类型 包括节点和服务(graphd、storaged、metad)两种指标类型。 指标规则 为节点或者服务设置指标规则。详细介绍,参见监控指标。 持续时间 设置警报持续多长时间后触发告警。单位分(Min)。 -
在消息设置配置页中,可看到系统自动生成的总规则及消息,然后单击提交。
Note
不建议新手用户修改消息内容,否则创建规则时,可能会报错。
-
查看自定义规则¶
在自定义规则列表页,用户可进行以下操作:
- 搜索告警规则,并根据规则的严重级别、类型、指标和状态,筛选规则。
- 单击重置置空所有的筛选项。
- 打开和关闭自定义告警规则,开启状态显示 active,关闭状态显示 disable。
修改自定义规则¶
用户可在自定义规则列表中,选中目标规则,单击编辑图标 修改规则。
删除自定义规则¶
用户可在自定义规则列表中,选中目标规则,单击删除图标 删除规则。
内置规则¶
内置规则是 Dashboard 为用户提供的默认规则。用户可打开和关闭内置规则,开启状态显示 active,关闭状态显示 disable。
Note
内置规则不可被修改和删除。
告警接收人¶
用户可为目标集群设置接收告警消息的邮箱,并且查看 Webhook 的地址及 Webhook 的开启状态。有关 Webhook 的介绍,参见全局设置。
- 在 Dashboard 顶部导航栏中,单击集群管理,然后在目标集群右侧,单击详情。
- 在集群管理页面左侧导航栏中,单击通知->接收人设置。
-
在接收人设置页面:
- 单击 Mail,填入为目标集群接收告警消息的邮箱地址,然后单击添加。
- 单击 Webhook, 查看 Webhook 的地址及 Webhook 的开启状态。
最后更新:
March 7, 2023