跳转至

监控指标说明

本文介绍 Dashboard 中展示的 Nebula Graph 监控指标。

机器

Note

  • 以下机器指标适用于 Linux 操作系统。
  • 磁盘容量和流量的默认单位为字节(Byte),页面显示时单位会随着数据量级而变化,例如流量低于 1 KB/s 时单位为 Bytes/s。
  • 对于高于 v1.0.2 版本的社区版 Dashboard,机器的 Buff 和 Cache 所占的内存没有被计算在内存使用率中。

CPU

参数 说明
cpu_utilization CPU 已使用百分比
cpu_idle CPU 空闲百分比
cpu_wait 等待 IO 操作的 CPU 百分比
cpu_user 用户空间(非 Nebula Graph 图空间)占用的 CPU 百分比
cpu_system 内核空间(非 Nebula Graph 内核空间)占用的 CPU 百分比

内存

参数 说明
memory_utilization 内存已使用百分比
memory_used 已使用内存(包括缓存)
memory_actual_used 实际使用内存(不包括缓存)
memory_free 空闲内存

负载

参数 说明
load_1m 最近 1 分钟系统平均负载
load_5m 最近 5 分钟系统平均负载
load_15m 最近 15 分钟系统平均负载

磁盘

参数 说明
disk_used 磁盘已使用存储空间
disk_free 磁盘剩余存储空间
disk_readbytes 磁盘每秒读取的字节数
disk_writebytes 磁盘每秒写入的字节数
disk_readiops 磁盘每秒的读请求数量
disk_writeiops 磁盘每秒的写请求数量
inode_utilization inode 已使用百分比

流量

参数 说明
network_in_rate 网卡每秒接收的字节数
network_out_rate 网卡每秒发送的字节数
network_in_errs 网卡每秒接收错误的字节数
network_out_errs 网卡每秒发送错误的字节数
network_in_packets 网卡每秒接收的数据包数量
network_out_packets 网卡每秒发送的数据包数量

服务

周期

指标统计的时间范围,当前支持 5 秒、60 秒、600 秒和 3600 秒,分别表示最近 5 秒、最近 1 分钟、最近 10 分钟和最近 1 小时。

聚合方式

参数 说明
rate 周期内平均每秒操作的速率
sum 周期内操作的总和
avg 周期内响应平均耗时
P75 周期内响应耗时从小到大排列,顺序处于 75%位置的分位数
P95 周期内响应耗时从小到大排列,顺序处于 95%位置的分位数
P99 周期内响应耗时从小到大排列,顺序处于 99%位置的分位数
P999 周期内响应耗时从小到大排列,顺序处于 99.9%位置的分位数

Graph

参数 说明
num_active_queries 当前正在执行的查询数。
num_active_sessions 当前活跃的会话数量。
num_aggregate_executors 聚合(Aggregate)算子执行时间。
num_auth_failed_sessions_bad_username_password 因用户名密码错误导验证失败的会话数量。
num_auth_failed_sessions 登录验证失败的会话数量。
num_indexscan_executors 索引扫描(IndexScan)算子执行时间。
num_killed_queries 被终止的查询数量。
num_opened_sessions 服务端建立过的会话数量。
num_queries 查询次数。
num_query_errors_leader_changes 因查询错误而导致的 Leader 变更的次数。
num_query_errors 查询错误次数。
num_reclaimed_expired_sessions 服务端主动回收的过期的会话数量。
num_rpc_sent_to_metad_failed Graphd 服务发给 Metad 的 RPC 请求失败的数量。
num_rpc_sent_to_metad Graphd 服务发给 Metad 服务的 RPC 请求数量。
num_rpc_sent_to_storaged_failed Graphd 服务发给 Storaged 服务的 RPC 请求失败的数量。
num_rpc_sent_to_storaged Graphd 服务发给 Storaged 服务的 RPC 请求数量。
num_sentences Graphd 服务接收的语句数。
num_slow_queries 慢查询次数。
num_sort_executors 排序(Sort)算子执行时间。
optimizer_latency_us 优化器阶段延时。
query_latency_us 查询平均延迟时间。
slow_query_latency_us 慢查询平均延迟时间。

Meta

参数 说明
commit_log_latency_us Raft 协议中 Commit 日志的延迟时间。
commit_snapshot_latency_us Raft 协议中 Commit 快照的延迟时间。
heartbeat_latency_us 心跳延迟时间。
num_heartbeats 心跳次数。
num_raft_votes Raft 协议中投票的次数。
transfer_leader_latency_us Raft 协议中转移 Leader 的延迟时间。

Storage

参数 说明
add_edges_latency_us 添加边的平均延迟时间。
add_vertices_latency_us 添加点的平均延迟时间。
commit_log_latency_us Raft 协议中 Commit 日志的延迟时间。
commit_snapshot_latency_us Raft 协议中 Commit 快照的延迟时间。
delete_edges_latency_us 删除边的平均延迟时间。
delete_vertices_latency_us 删除点的平均延迟时间。
get_neighbors_latency_us 查询邻居平均延迟时间。
num_edges_deleted 删除的边数量。
num_edges_inserted 插入的边数量。
num_raft_votes Raft 协议中投票的次数。
num_rpc_sent_to_metad_failed Storaged 服务发给 Metad 服务的 RPC 请求失败的数量。
num_rpc_sent_to_metad Storaged 服务发给 Metad 服务的 RPC 请求数量。
num_tags_deleted 删除的 Tag 数量。
num_vertices_deleted 删除的点数量。
num_vertices_inserted 插入的点数量。
transfer_leader_latency_us Raft 协议中转移 Leader 的延迟时间。

图空间

参数 说明
num_active_queries 当前正在执行的查询数。
num_aggregate_executors 聚合(Aggregate)算子执行时间。
num_indexscan_executors 索引扫描(IndexScan)算子执行时间。
num_killed_queries 被终止的查询数量。
num_queries 查询次数。
num_query_errors_leader_changes 因查询错误而导致的 Leader 变更的次数。
num_query_errors 查询错误次数。
num_sentences Graphd 服务接收的语句数。
num_slow_queries 慢查询次数。
num_sort_executors 排序(Sort)算子执行时间。
optimizer_latency_us 优化器阶段延时。
query_latency_us 查询平均延迟时间。

最后更新: March 7, 2023