clickhouse-(06)-基于Grafana监控
利用Grafana与系统表监控ClickHouse查询
前言
我们往往需要关心数据库的查询执行情况,特别是慢查询。本文简述配置ClickHouse查询监控的一种傻瓜方法。
开启查询日志
打开各个ClickHouse实例的users.xml,在当前使用的profile(如default)中加入:
<log_queries>1</log_queries>
再去各个ClickHouse实例的config.xml中检查一下查询日志的配置,以下是默认启用的配置:
<query_log>
<database>system</database>
<table>query_log</table>
<partition_by>toYYYYMM(event_date)</partition_by>
<flush_interval_milliseconds>7500</flush_interval_milliseconds>
</query_log>
<trace_log>
<database>system</database>
<table>trace_log</table>
<partition_by>toYYYYMM(event_date)</partition_by>
<flush_interval_milliseconds>7500</flush_interval_milliseconds>
</trace_log>
<query_thread_log>
<database>system</database>
<table>query_thread_log</table>
<partition_by>toYYYYMM(event_date)</partition_by>
<flush_interval_milliseconds>7500</flush_interval_milliseconds>
</query_thread_log>
其中,partition_by表示查询日志表的分区列,语法与普通建表时相同,默认按月分区。flush_interval_milliseconds则表示日志刷入表中的周期,默认7.5秒。按需修改后,重启ClickHouse实例,就会自动在system库中创建对应的系统表,并写数据。
关于查询日志表(以及其他系统表)中各列的含义,可参见官方文档,非常详细。
创建分布式表、设定TTL
在集群中执行以下语句,创建query_log的分布式表query_log_all,这样才能正确统计所有节点的查询日志。
CREATE TABLE IF NOT EXISTS system.query_log_all
ON CLUSTER sht_ck_cluster_pro
AS system.query_log
ENGINE = Distributed(sht_ck_cluster_pro,system,query_log,rand());
查询日志表没有自动过期功能,为了防止日志太多占用大量磁盘空间,可以手动为每张query_log表设定TTL。建议也给其他系统日志表配置上TTL。
ALTER TABLE system.query_log
MODIFY TTL event_date + INTERVAL 15 DAYS;
下载、安装、启动Grafana
wget https://dl.grafana.com/oss/release/grafana-6.7.4-1.x86_64.rpm
yum -y localinstall grafana-6.7.4-1.x86_64.rpm
service grafana-server start
访问<grafana_ip>:3000即可。
安装与添加ClickHouse DataSource
ClickHouse DataSource是由Vertamedia开发的第三方插件(这家公司也开源了负载均衡组件CHProxy)。直接用grafana-cli安装之。
grafana-cli plugins install vertamedia-clickhouse-datasource
然后在Grafana中添加数据源。
配置Grafana Dashboard
以慢查询为例。先添加一个Query,指定库名、表名、日期列和时间列。
然后点击Go to Query按钮,写入如下SQL语句。
SELECT
query,
avg(query_duration_ms) AS duration_avg,
max(query_duration_ms) AS duration_max,
count() AS query_count
FROM $table
WHERE $timeFilter
AND type = 2
AND positionCaseInsensitive(query,'%system.%') = 0
GROUP BY query
ORDER BY duration_max DESC
LIMIT 10
$table和$timeFilter都是ClickHouse DataSource预置的宏,可以参见上面给出的传送门。然后,将Format as选项设定为Table,就可以看到指定时间段内的慢查询top 10了。截图会涉及到敏感业务数据,就不贴了。
再举个例子,绘制QPS的折线图,SQL语句如下。
$rate(count() AS q)
FROM $table
WHERE $timeFilter
AND type = 2
AND positionCaseInsensitive(query,'%system.%') = 0
$rate是什么鬼?这个是ClickHouse DataSource提供的内置函数,上面的SQL语句在实际请求时会转化成以下的语句。
SELECT t, q / runningDifference(t / 1000) qRate FROM ( SELECT (intDiv(toUInt32(event_time), 5) * 5) * 1000 AS t, count() AS q FROM system.query_log_all WHERE event_date >= toDate(1592905770) AND event_time >= toDateTime(1592905770) AND type = 2 AND positionCaseInsensitive(query,'%system.%') = 0 GROUP BY t ORDER BY t)
可见是先以5秒步长分组并统计查询数,再借助runningDifference()函数推导出两行之间时间的增量,进而得到QPS。在Grafana面板中可以通过调整"Resolution"参数来修改步长,如设定为1/4,步长就是20秒。
The End
作者:LittleMagic
链接:https://www.jianshu.com/p/6ffd403c249a
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。