监控指标说明
本文介绍 Dashboard 中展示的 Nebula Graph 监控指标。
机器
Note
- 以下机器指标适用于 Linux 操作系统。
- 磁盘容量和流量的默认单位为字节(Byte),页面显示时单位会随着数据量级而变化,例如流量低于 1 KB/s 时单位为 Bytes/s。
- 对于高于 v1.0.2 版本的社区版 Dashboard,机器的 Buff 和 Cache 所占的内存没有被计算在内存使用率中。
CPU
参数 |
说明 |
cpu_utilization |
CPU 已使用百分比 |
cpu_idle |
CPU 空闲百分比 |
cpu_wait |
等待 IO 操作的 CPU 百分比 |
cpu_user |
用户空间(非 Nebula Graph 图空间)占用的 CPU 百分比 |
cpu_system |
内核空间(非 Nebula Graph 内核空间)占用的 CPU 百分比 |
内存
参数 |
说明 |
memory_utilization |
内存已使用百分比 |
memory_used |
已使用内存(包括缓存) |
memory_actual_used |
实际使用内存(不包括缓存) |
memory_free |
空闲内存 |
负载
参数 |
说明 |
load_1m |
最近 1 分钟系统平均负载 |
load_5m |
最近 5 分钟系统平均负载 |
load_15m |
最近 15 分钟系统平均负载 |
磁盘
参数 |
说明 |
disk_used |
磁盘已使用存储空间 |
disk_free |
磁盘剩余存储空间 |
disk_readbytes |
磁盘每秒读取的字节数 |
disk_writebytes |
磁盘每秒写入的字节数 |
disk_readiops |
磁盘每秒的读请求数量 |
disk_writeiops |
磁盘每秒的写请求数量 |
inode_utilization |
inode 已使用百分比 |
流量
参数 |
说明 |
network_in_rate |
网卡每秒接收的字节数 |
network_out_rate |
网卡每秒发送的字节数 |
network_in_errs |
网卡每秒接收错误的字节数 |
network_out_errs |
网卡每秒发送错误的字节数 |
network_in_packets |
网卡每秒接收的数据包数量 |
network_out_packets |
网卡每秒发送的数据包数量 |
服务
周期
指标统计的时间范围,当前支持 5 秒、60 秒、600 秒和 3600 秒,分别表示最近 5 秒、最近 1 分钟、最近 10 分钟和最近 1 小时。
聚合方式
参数 |
说明 |
rate |
周期内平均每秒操作的速率 |
sum |
周期内操作的总和 |
avg |
周期内响应平均耗时 |
P75 |
周期内响应耗时从小到大排列,顺序处于 75%位置的分位数 |
P95 |
周期内响应耗时从小到大排列,顺序处于 95%位置的分位数 |
P99 |
周期内响应耗时从小到大排列,顺序处于 99%位置的分位数 |
P999 |
周期内响应耗时从小到大排列,顺序处于 99.9%位置的分位数 |
Graph
参数 |
说明 |
num_active_queries |
当前正在执行的查询数。 |
num_active_sessions |
当前活跃的会话数量。 |
num_aggregate_executors |
聚合(Aggregate)算子执行时间。 |
num_auth_failed_sessions_bad_username_password |
因用户名密码错误导验证失败的会话数量。 |
num_auth_failed_sessions |
登录验证失败的会话数量。 |
num_indexscan_executors |
索引扫描(IndexScan)算子执行时间。 |
num_killed_queries |
被终止的查询数量。 |
num_opened_sessions |
服务端建立过的会话数量。 |
num_queries |
查询次数。 |
num_query_errors_leader_changes |
因查询错误而导致的 Leader 变更的次数。 |
num_query_errors |
查询错误次数。 |
num_reclaimed_expired_sessions |
服务端主动回收的过期的会话数量。 |
num_rpc_sent_to_metad_failed |
Graphd 服务发给 Metad 的 RPC 请求失败的数量。 |
num_rpc_sent_to_metad |
Graphd 服务发给 Metad 服务的 RPC 请求数量。 |
num_rpc_sent_to_storaged_failed |
Graphd 服务发给 Storaged 服务的 RPC 请求失败的数量。 |
num_rpc_sent_to_storaged |
Graphd 服务发给 Storaged 服务的 RPC 请求数量。 |
num_sentences |
Graphd 服务接收的语句数。 |
num_slow_queries |
慢查询次数。 |
num_sort_executors |
排序(Sort)算子执行时间。 |
optimizer_latency_us |
优化器阶段延时。 |
query_latency_us |
查询平均延迟时间。 |
slow_query_latency_us |
慢查询平均延迟时间。 |
参数 |
说明 |
commit_log_latency_us |
Raft 协议中 Commit 日志的延迟时间。 |
commit_snapshot_latency_us |
Raft 协议中 Commit 快照的延迟时间。 |
heartbeat_latency_us |
心跳延迟时间。 |
num_heartbeats |
心跳次数。 |
num_raft_votes |
Raft 协议中投票的次数。 |
transfer_leader_latency_us |
Raft 协议中转移 Leader 的延迟时间。 |
Storage
参数 |
说明 |
add_edges_latency_us |
添加边的平均延迟时间。 |
add_vertices_latency_us |
添加点的平均延迟时间。 |
commit_log_latency_us |
Raft 协议中 Commit 日志的延迟时间。 |
commit_snapshot_latency_us |
Raft 协议中 Commit 快照的延迟时间。 |
delete_edges_latency_us |
删除边的平均延迟时间。 |
delete_vertices_latency_us |
删除点的平均延迟时间。 |
get_neighbors_latency_us |
查询邻居平均延迟时间。 |
num_edges_deleted |
删除的边数量。 |
num_edges_inserted |
插入的边数量。 |
num_raft_votes |
Raft 协议中投票的次数。 |
num_rpc_sent_to_metad_failed |
Storaged 服务发给 Metad 服务的 RPC 请求失败的数量。 |
num_rpc_sent_to_metad |
Storaged 服务发给 Metad 服务的 RPC 请求数量。 |
num_tags_deleted |
删除的 Tag 数量。 |
num_vertices_deleted |
删除的点数量。 |
num_vertices_inserted |
插入的点数量。 |
transfer_leader_latency_us |
Raft 协议中转移 Leader 的延迟时间。 |
图空间
参数 |
说明 |
num_active_queries |
当前正在执行的查询数。 |
num_aggregate_executors |
聚合(Aggregate)算子执行时间。 |
num_indexscan_executors |
索引扫描(IndexScan)算子执行时间。 |
num_killed_queries |
被终止的查询数量。 |
num_queries |
查询次数。 |
num_query_errors_leader_changes |
因查询错误而导致的 Leader 变更的次数。 |
num_query_errors |
查询错误次数。 |
num_sentences |
Graphd 服务接收的语句数。 |
num_slow_queries |
慢查询次数。 |
num_sort_executors |
排序(Sort)算子执行时间。 |
optimizer_latency_us |
优化器阶段延时。 |
query_latency_us |
查询平均延迟时间。 |
最后更新:
March 7, 2023