监控指标说明¶
本文介绍 Dashboard 中展示的 NebulaGraph 监控指标。
机器¶
Note
- 以下机器指标适用于 Linux 操作系统。
- 磁盘容量和流量的默认单位为字节(Byte),页面显示时单位会随着数据量级而变化,例如流量低于 1 KB/s 时单位为 Bytes/s。
- 对于所有版本的企业版 Dashboard,机器的 Buff 和 Cache 所占的内存没有被计算在内存使用率中。
CPU¶
参数 | 说明 |
---|---|
cpu_utilization |
CPU 已使用百分比。 |
cpu_idle |
CPU 空闲百分比。 |
cpu_wait |
等待 IO 操作的 CPU 百分比。 |
cpu_user |
用户空间(非 NebulaGraph 图空间)占用的 CPU 百分比。 |
cpu_system |
内核空间(非 NebulaGraph 内核空间)占用的 CPU 百分比。 |
内存¶
参数 | 说明 |
---|---|
memory_utilization |
内存已使用百分比。 |
memory_used |
已使用内存(不包括缓存)。 |
memory_free |
空闲内存。 |
负载¶
参数 | 说明 |
---|---|
load_1m |
最近 1 分钟系统平均负载。 |
load_5m |
最近 5 分钟系统平均负载。 |
load_15m |
最近 15 分钟系统平均负载。 |
磁盘¶
参数 | 说明 |
---|---|
disk_used_percentage |
磁盘使用率。 |
disk_used |
磁盘已使用存储空间。 |
disk_free |
磁盘剩余存储空间。 |
disk_readbytes |
磁盘每秒读取的字节数。 |
disk_writebytes |
磁盘每秒写入的字节数。 |
disk_readiops |
磁盘每秒的读请求数量。 |
disk_writeiops |
磁盘每秒的写请求数量。 |
inode_utilization |
inode 已使用百分比。 |
流量¶
参数 | 说明 |
---|---|
network_in_rate |
网卡每秒接收的字节数。 |
network_out_rate |
网卡每秒发送的字节数。 |
network_in_errs |
网卡每秒接收错误的字节数。 |
network_out_errs |
网卡每秒发送错误的字节数。 |
network_in_packets |
网卡每秒接收的数据包数量。 |
network_out_packets |
网卡每秒发送的数据包数量。 |
服务¶
周期¶
指标统计的时间范围,当前支持 5 秒、60 秒、600 秒和 3600 秒,分别表示最近 5 秒、最近 1 分钟、最近 10 分钟和最近 1 小时。
聚合方式¶
参数 | 说明 |
---|---|
rate |
周期内平均每秒操作的速率。 |
sum |
周期内操作的总和。 |
avg |
周期内响应平均耗时。 |
P75 |
周期内响应耗时从小到大排列,顺序处于 75% 位置的分位数值。 |
P95 |
周期内响应耗时从小到大排列,顺序处于 95% 位置的分位数值。 |
P99 |
周期内响应耗时从小到大排列,顺序处于 99% 位置的分位数值。 |
P999 |
周期内响应耗时从小到大排列,顺序处于 99.9% 位置的分位数值。 |
Note
以下为 Dashboard 获取内核的全量指标,但 Dashboard 仅展示重要的指标。
Graph¶
参数 | 说明 |
---|---|
num_active_queries |
活跃的查询语句数的变化数。 计算公式:时间范围内开始执行的语句数减去执行完毕的语句数。 |
num_active_sessions |
活跃的会话数的变化数。 计算公式:时间范围内登录的会话数减去登出的会话数。 例如查询num_active_sessions.sum.5,过去 5 秒中登录了 10 个会话数,登出了 30 个会话数,那么该指标值就是 -20 (10-30)。 |
num_aggregate_executors |
聚合(Aggregate)算子执行时间。 |
num_auth_failed_sessions_bad_username_password |
因用户名密码错误导验证失败的会话数量。 |
num_auth_failed_sessions_out_of_max_allowed |
因为超过FLAG_OUT_OF_MAX_ALLOWED_CONNECTIONS 参数导致的验证登录的失败的会话数量。 |
num_auth_failed_sessions |
登录验证失败的会话数量。 |
num_indexscan_executors |
索引扫描(IndexScan)算子执行时间。 |
num_killed_queries |
被终止的查询数量。 |
num_opened_sessions |
服务端建立过的会话数量。 |
num_queries |
查询次数。 |
num_query_errors_leader_changes |
因查询错误而导致的 Leader 变更的次数。 |
num_query_errors |
查询错误次数。 |
num_reclaimed_expired_sessions |
服务端主动回收的过期的会话数量。 |
num_rpc_sent_to_metad_failed |
Graphd 服务发给 Metad 的 RPC 请求失败的数量。 |
num_rpc_sent_to_metad |
Graphd 服务发给 Metad 服务的 RPC 请求数量。 |
num_rpc_sent_to_storaged_failed |
Graphd 服务发给 Storaged 服务的 RPC 请求失败的数量。 |
num_rpc_sent_to_storaged |
Graphd 服务发给 Storaged 服务的 RPC 请求数量。 |
num_sentences |
Graphd 服务接收的语句数。 |
num_slow_queries |
慢查询次数。 |
num_sort_executors |
排序(Sort)算子执行时间。 |
optimizer_latency_us |
优化器阶段延迟时间。 |
query_latency_us |
查询延迟时间。 |
slow_query_latency_us |
慢查询延迟时间。 |
num_queries_hit_memory_watermark |
达到内存水位线的语句的数量。 |
Meta¶
参数 | 说明 |
---|---|
commit_log_latency_us |
Raft 协议中 Commit 日志的延迟时间。 |
commit_snapshot_latency_us |
Raft 协议中 Commit 快照的延迟时间。 |
heartbeat_latency_us |
心跳延迟时间。 |
num_heartbeats |
心跳次数。 |
num_raft_votes |
Raft 协议中投票的次数。 |
transfer_leader_latency_us |
Raft 协议中转移 Leader 的延迟时间。 |
num_agent_heartbeats |
AgentHBProcessor 心跳次数。 |
agent_heartbeat_latency_us |
AgentHBProcessor 延迟时间。 |
replicate_log_latency_us |
Raft 复制日志至大多数节点的延迟。 |
num_send_snapshot |
Raft 发送快照至其他节点的次数。 |
append_log_latency_us |
Raft 复制日志到单个节点的延迟。 |
append_wal_latency_us |
Raft 写入单条 WAL 的延迟。 |
num_grant_votes |
Raft 投票给其他节点的次数。 |
num_start_elect |
Raft 发起投票的次数。 |
Storage¶
参数 | 说明 |
---|---|
add_edges_latency_us |
添加边的延迟时间。 |
add_vertices_latency_us |
添加点的延迟时间。 |
commit_log_latency_us |
Raft 协议中 Commit 日志的延迟时间。 |
commit_snapshot_latency_us |
Raft 协议中 Commit 快照的延迟时间。 |
delete_edges_latency_us |
删除边的延迟时间。 |
delete_vertices_latency_us |
删除点的延迟时间。 |
get_neighbors_latency_us |
查询邻居延迟时间。 |
get_dst_by_src_latency_us |
通过起始点获取终点的延迟时间。 |
num_get_prop |
GetPropProcessor 执行的次数。 |
num_get_neighbors_errors |
GetNeighborsProcessor 执行出错的次数。 |
num_get_dst_by_src_errors |
GetDstBySrcProcessor 执行出错的次数。 |
get_prop_latency_us |
GetPropProcessor 执行的延迟时间。 |
num_edges_deleted |
删除的边数量。 |
num_edges_inserted |
插入的边数量。 |
num_raft_votes |
Raft 协议中投票的次数。 |
num_rpc_sent_to_metad_failed |
Storaged 服务发给 Metad 服务的 RPC 请求失败的数量。 |
num_rpc_sent_to_metad |
Storaged 服务发给 Metad 服务的 RPC 请求数量。 |
num_tags_deleted |
删除的 Tag 数量。 |
num_vertices_deleted |
删除的点数量。 |
num_vertices_inserted |
插入的点数量。 |
transfer_leader_latency_us |
Raft 协议中转移 Leader 的延迟时间。 |
lookup_latency_us |
LookupProcessor 执行的延迟时间。 |
num_lookup_errors |
LookupProcessor 执行时出错的次数。 |
num_scan_vertex |
ScanVertexProcessor 执行的次数。 |
num_scan_vertex_errors |
ScanVertexProcessor 执行时出错的次数。 |
update_edge_latency_us |
UpdateEdgeProcessor 执行的延迟时间。 |
num_update_vertex |
UpdateVertexProcessor 执行的次数。 |
num_update_vertex_errors |
UpdateVertexProcessor 执行时出错的次数。 |
kv_get_latency_us |
Getprocessor 的延迟时间。 |
kv_put_latency_us |
PutProcessor 的延迟时间。 |
kv_remove_latency_us |
RemoveProcessor 的延迟时间。 |
num_kv_get_errors |
GetProcessor 执行出错次数。 |
num_kv_get |
GetProcessor 执行次数。 |
num_kv_put_errors |
PutProcessor 执行出错次数。 |
num_kv_put |
PutProcessor 执行次数。 |
num_kv_remove_errors |
RemoveProcessor 执行出错次数。 |
num_kv_remove |
RemoveProcessor 执行次数。 |
forward_tranx_latency_us |
传输延迟时间。 |
scan_edge_latency_us |
ScanEdgeProcessor 执行的延迟时间。 |
num_scan_edge_errors |
ScanEdgeProcessor 执行时出错的次数。 |
num_scan_edge |
ScanEdgeProcessor 执行的次数。 |
scan_vertex_latency_us |
ScanVertexProcessor 执行的延迟时间。 |
num_add_edges |
添加边的次数。 |
num_add_edges_errors |
添加边时出错的次数。 |
num_add_vertices |
添加点的次数。 |
num_start_elect |
Raft 发起投票的次数 |
num_add_vertices_errors |
添加点时出错的次数。 |
num_delete_vertices_errors |
删除点时出错的次数。 |
append_log_latency_us |
Raft 复制日志到单个节点的延迟。 |
num_grant_votes |
Raft 投票给其他节点的次数。 |
replicate_log_latency_us |
Raft 复制日志到大多数节点的延迟。 |
num_delete_tags |
删除 Tag 的次数。 |
num_delete_tags_errors |
删除 Tag 时出错的次数。 |
num_delete_edges |
删除边的次数。 |
num_delete_edges_errors |
删除边时出错的次数。 |
num_send_snapshot |
发送快照的次数。 |
update_vertex_latency_us |
UpdateVertexProcessor 执行的延迟时间。 |
append_wal_latency_us |
Raft 写入单条 WAL 的延迟。 |
num_update_edge |
UpdateEdgeProcessor 执行的次数。 |
delete_tags_latency_us |
删除 Tag 的延迟时间。 |
num_update_edge_errors |
UpdateEdgeProcessor 执行时出错的次数。 |
num_get_neighbors |
GetNeighborsProcessor 执行的次数。 |
num_get_dst_by_src |
GetDstBySrcProcessor 执行的次数。 |
num_get_prop_errors |
GetPropProcessor 执行时出错的次数。 |
num_delete_vertices |
删除点的次数。 |
num_lookup |
LookupProcessor 执行的次数。 |
num_sync_data |
Storage 同步 Drainer 数据的次数。 |
num_sync_data_errors |
Storage 同步 Drainer 数据出错的次数。 |
sync_data_latency_us |
Storage 同步 Drainer 数据的延迟时间。 |
图空间级别监控指标¶
Note
图空间级别监控指标是动态创建的, 只有当图空间内触发该行为时,对应的指标才会创建,用户才能查询到。
参数 | 说明 |
---|---|
num_active_queries |
当前正在执行的查询数。 |
num_queries |
查询次数。 |
num_sentences |
Graphd 服务接收的语句数。 |
optimizer_latency_us |
优化器阶段延迟时间。 |
query_latency_us |
查询延迟时间。 |
num_slow_queries |
慢查询次数。 |
num_query_errors |
查询报错语句数量。 |
num_query_errors_leader_changes |
因查询错误而导致的 Leader 变更的次数。 |
num_killed_queries |
被终止的查询数量。 |
num_aggregate_executors |
聚合(Aggregate)算子执行时间。 |
num_sort_executors |
排序(Sort)算子执行时间。 |
num_indexscan_executors |
索引扫描(IndexScan)算子执行时间。 |
num_auth_failed_sessions_bad_username_password |
因用户名密码错误导验证失败的会话数量。 |
num_auth_failed_sessions |
登录验证失败的会话数量。 |
num_opened_sessions |
服务端建立过的会话数量。 |
num_queries_hit_memory_watermark |
达到内存水位线的语句的数量。 |
num_reclaimed_expired_sessions |
服务端主动回收的过期的会话数量。 |
num_rpc_sent_to_metad_failed |
Graphd 服务发给 Metad 的 RPC 请求失败的数量。 |
num_rpc_sent_to_metad |
Graphd 服务发给 Metad 服务的 RPC 请求数量。 |
num_rpc_sent_to_storaged_failed |
Graphd 服务发给 Storaged 服务的 RPC 请求失败的数量。 |
num_rpc_sent_to_storaged |
Graphd 服务发给 Storaged 服务的 RPC 请求数量。 |
slow_query_latency_us |
慢查询延迟时间。 |
单进程指标¶
Graph、Meta 和 Storage 服务都有自身的单进程指标。
参数 | 说明 |
---|---|
context_switches_total |
上下文切换数量。 |
cpu_seconds_total |
基于用户时间和系统时间的 CPU 使用量。 |
memory_bytes_gauge |
使用的内存字节数。 |
open_filedesc_gauge |
文件描述符的数量。 |
read_bytes_total |
读取的字节数量。 |
write_bytes_total |
写入的字节数量。 |
最后更新:
October 19, 2022