OLAP系列之分析型数据库clickhouse集群部署(二)

一、环境准备

IP	配置	clickhouse版本	zookeeper版本	myid
192.168.12.88	Centos 7.9 4核8G	22.8.20.11	3.7.1	3
192.168.12.90	Centos 7.9 4核8G	22.8.20.11	3.7.1	2
192.168.12.91	Centos 7.9 4核8G	22.8.20.11	3.7.1	1

clickhouse版本选择：可以参照阿里云或腾讯云版本：22.8

# 基础环境配置
vim /etc/security/limits.conf
* soft nofile 655365
* hard nofile 655365
* soft nproc 128000
* hard nproc 128000

cat /etc/security/limits.d/20-nproc.conf
*          soft    nproc     4096
root       soft    nproc     unlimited

# 禁用selinux
vim /etc/selinux/config
SELINUX=disabled

vim /sys/kernel/mm/transparent_hugepage/enabled
always madvise [never]
# 如果不修改会出现警告提示
Warnings:* Linux transparent hugepages are set to "always". Check /sys/kernel/mm/transparent_hugepage/enable

二、zookeeper集群安装

参照：centos 安装apache-zookeeper

安装jdk11，并设置环境变量

# 目录建立
mkdir /data/clickhouse/zookeeper/{data,logs} -p
mkdir /data/clickhouse/clickhouse/ -p
mkdir /data/clickhouse/server-logs/ -p

cd /usr/local/
tar -xzvf apache-zookeeper-3.7.1-bin.tar.gz
ln -s apache-zookeeper-3.7.1-bin zookeeper

cd /usr/local/zookeeper/conf
cp zoo_sample.cfg zoo.cfg

mkdir /data/clickhouse/zookeeper/{data,logs} -p
# 其余机器myid依次写入2、3
echo 1 > /data/clickhouse/zookeeper/data/myid

# 配置文件
vim zoo.cfg

tickTime=2000
initLimit=10
syncLimit=5
clientPort=2281
#maxClientCnxns=60
#autopurge.snapRetainCount=3
#autopurge.purgeInterval=1
#metricsProvider.className=org.apache.zookeeper.metrics.prometheus.PrometheusMetricsProvider
#metricsProvider.httpPort=7000
#metricsProvider.exportJvmInfo=true
dataDir=/data/clickhouse/zookeeper/data
dataLogDir=/data/clickhouse/zookeeper/logs
# 如果是云服务器需要外网访问就需要设置下面的参数
# quorumListenOnAllIPs=true
server.1=192.168.12.91:2999:3999
server.2=192.168.12.90:2999:3999
server.3=192.168.12.88:2999:3999

# 启动程序
cd /usr/local/zookeeper
# bin/zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED

三、clickhouse部署

1.安装

参考文章(OLAP系列之分析型数据库clickhouse单机版部署(一))

2.集群配置（3分片+每分片1副本）

ClickHouse数据存储时支持副本和分片：
副本指的就是一份数据可以在不同的节点上存储，这些节点上存储的每份数据相同，数据副本是增加数据存储冗余来防止数据丢失。类似主从
分片指的是ClickHouse一张表的数据可以横向切分为多份，每份中的数据不相同且存储在不同的节点上，分片的目的主要是实现数据的水平切分，方便多线程和分布式查询数据。

2.1 config.xml修改

cd /etc/clickhouse-server

# 1.修改clickhouse目录结构
# 1.1 默认保存日志的目录，通常会修改，将数据保存到大容量磁盘路径中
        <level>trace</level>
        <log>/data/clickhouse/server-logs/clickhouse-server.log</log>
        <errorlog>/data/clickhouse/server-logs/clickhouse-server.err.log</errorlog>

# 1.2 默认数据存储目录修改
<path>/data/clickhouse/clickhouse/</path>
<tmp_path>/data/clickhouse/clickhouse/tmp/</tmp_path>
<user_files_path>/data/clickhouse/clickhouse/user_files/</user_files_path>
<path>/data/clickhouse/clickhouse/access/</path>

# 2.使用的端口，不需要修改，可以根据情况修改，使用的端口有：
<http_port>8123</http_port>
<tcp_port>9000</tcp_port>
<postgresql_port>9005</postgresql_port>
<interserver_http_port>9009</interserver_http_port>

# 3.外网访问是否打开配置
# 如果有ipv6，则取消下面配置注释
<listen_host>::</listen_host>
# 如果只有ipv4，取消下面配置注释
<listen_host>0.0.0.0</listen_host>
# 本机访问
    <listen_host>::1</listen_host>
    <listen_host>127.0.0.1</listen_host>
# 注意config.d/listen.xml中的配置，如果只有ipv4,也需要改成0.0.0.0


# 4.时区修改
 <timezone>Asia/Shanghai</timezone>

# 5.集群配置
注销掉<remote_servers></remote_servers>中所有内容，单独在后面添加，如果不注销会出现默认的副本：
<include_from>/etc/clickhouse-server/config.d/metrika.xml</include_from>

2.2 metrika.xml文件配置

3个节点都增加配置文件[/etc/clickhouse-server/config.d/metrika.xml]

配置如下：

<?xml version="1.0">
<yandex>
<!-- 新版的clickhouse集群的首个标签是clickhouse，而不是yandex -->
    <remote_servers>
        <!-- 自定义集群名称 -->
        <clickhouse_cluster_3shards_1replicas>
            <!-- 定义集群的分片数量，3个shard标签说明有3个节点-->
            <shard> 
                <!-- 分片1 -->
                <!-- 表示是否只将数据写入其中一个副本，默认为false,表示写入所有副本，在复制表的情况下可能会导致重复和不一致，所以这里要改为true -->
                <internal_replication>true</internal_replication>
                <!-- 定义分片的副本数量 -->
                <replica>
                    <host>192.168.12.91</host>
                    <port>9000</port>
                    <user>default</user>
                    <password>密码</password>
                </replica>
            </shard>
            <!-- 分片2 -->
            <shard>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>192.168.12.90</host>
                    <port>9000</port>
                    <user>default</user>
                    <password>密码</password>
                </replica>
            </shard>
            <!-- 分片3 -->
            <shard>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>192.168.12.88</host>
                    <port>9000</port>
                    <user>default</user>  <!--默认用户名 -->
                    <password>密码</password>  <!-- 密码安装时那个 -->
                </replica>
            </shard>
        </clickhouse_cluster_3shards_1replicas>
    </remote_servers>
   <!-- zookeeper集群配置 -->
    <zookeeper>
        <node index="1">
            <host>192.168.12.91</host>
            <port>2281</port>
        </node>
        <node index="2">
            <host>192.168.12.90</host>
            <port>2281</port>
        </node>
        <node index="3">
            <host>192.168.12.88</host>
            <port>2281</port>
        </node>
    </zookeeper>

    <!-- 本节点副本名称replica,配置后能方便后续创建复制表时不用指定zk路径,每台机器的配置不一样,确保和每台机器的host名称一致-->

    <macros>
        <shard>01</shard> 
        <replica>cluster01</replica>
    </macros>
    <!-- 注意config.xml中配置的listen_host是什么 -->
    <networks>
        <ip>::/0</ip>
    </networks>
    <!-- 数据压缩算法配置 -->
    <clickhouse_compression>
        <case>
            <min_part_size>10000000000</min_part_size>
            <min_part_size_ratio>0.01</min_part_size_ratio>
            <method>lz4</method>
        </case>
    </clickhouse_compression>
</yandex>

<yandex>
    <remote_servers>
        <clickhouse_cluster_3shards_1replicas>
            <shard>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>192.168.12.91</host>
                    <port>9000</port>
                </replica>
            </shard>
            <shard>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>192.168.12.90</host>
                    <port>9000</port>
                </replica>
            </shard>
            <shard>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>192.168.12.88</host>
                    <port>9000</port>
                </replica>
            </shard>
        </clickhouse_cluster_3shards_1replicas>
    </remote_servers>
   
    <zookeeper>
        <node index="1">
            <host>192.168.12.91</host>
            <port>2281</port>
        </node>
        <node index="2">
            <host>192.168.12.90</host>
            <port>2281</port>
        </node>
        <node index="3">
            <host>192.168.12.88</host>
            <port>2281</port>
        </node>
    </zookeeper>
    <macros>
        <shard>01</shard> 
        <replica>cluster01</replica>
    </macros>
    <networks>
        <ip>::/0</ip>
    </networks>
    <clickhouse_compression>
        <case>
            <min_part_size>10000000000</min_part_size>
            <min_part_size_ratio>0.01</min_part_size_ratio>
            <method>lz4</method>
        </case>
    </clickhouse_compression>
</yandex>

metrika.xml

注意：需要在每个clickhouse节点上修改macros配置名称

# 第2个节点配置
<macros>
    <shard>02</shard> 
    <replica>cluster02</replica>
</macros>

# 第3个节点配置
<macros>
    <shard>03</shard> <!—第一个分片–>
    <replica>cluster03</replica>   <!—自命名–>
</macros>

2.3 users.xml配置

# 搭建时可以先不用看这个，等完成了之后再测试是否需要
# 配置文件users.xml
<user>
    <default> 默认用户
    <password>明文密码</password> //可以改为下面的这种加密的
  <password_sha256_hex>37a8eec1ce19687d132fe29051dca629d164e2c4958ba141d5f4133a33f0688f</password_sha256_hex>
    # 开启SQL用户管理模式即可以使用create user 和grant 命令创建用户和对用户进行授权。
    <access_management>1</access_management>
    <networks>
        <ip>::/0</ip>
    </networks>

<!-- 新增用户dbaadmin,并限定能访问的数据库 -->
    <dbaadmin>
        <password>123456</password>
        <access_management>1</access_management>
        <networks incl="networks" replace="replace">
            <ip>::/0</ip>
        </networks>
        <profile>default</profile>
        <quota>default</quota>
        <allow_databases>
            <database>test_log</database>
            <database>db_hxl</database>
        </allow_databases>
      </dbaadmin>
</user>


# echo -n default | openssl dgst -sha256
(stdin)= 37a8eec1ce19687d132fe29051dca629d164e2c4958ba141d5f4133a33f0688f

四、服务启动并验证

4.1 服务启动

# 1.分别登录3台机器，启动服务
# 启动方式
clickhouse start
 chown -R clickhouse: '/var/run/clickhouse-server/'
Will run sudo -u 'clickhouse' /usr/bin/clickhouse-server --config-file /etc/clickhouse-server/config.xml --pid-file /var/run/clickhouse-server/clickhouse-server.pid --daemon
Waiting for server to start
Waiting for server to start
Server started

或者 
systemctl start clickhouse-server.service
● clickhouse-server.service - ClickHouse Server (analytic DBMS for big data)
   Loaded: loaded (/usr/lib/systemd/system/clickhouse-server.service; enabled; vendor preset: disabled)
   Active: active (running) since Fri 2023-07-21 16:25:40 CST; 1min 26s ago
 Main PID: 1698 (clckhouse-watch)
    Tasks: 204
   Memory: 115.1M
   CGroup: /system.slice/clickhouse-server.service
           ├─1698 clickhouse-watchdog --config=/etc/clickhouse-server/config.xml --pid-file=/run/clickhouse-server/clickhouse-server.pid
           └─1699 /usr/bin/clickhouse-server --config=/etc/clickhouse-server/config.xml --pid-file=/run/clickhouse-server/clickhouse-server.pid

4.2 验证

# 1.本机登录验证
clickhouse-client --password 密码

:)SHOW DATABASES

Query id: a80654a4-7946-4285-8b2a-87a46c6b347b

┌─name───────────────┐
│ INFORMATION_SCHEMA │
│ default            │
│ information_schema │
│ system             │
└────────────────────┘

4 rows in set. Elapsed: 0.001 sec.

:) select * from system.clusters;

SELECT *
FROM system.clusters

Query id: 647b0a0b-f9d2-4b74-8a06-8e40cd6e15eb

┌─cluster──────────────────────────────┬─shard_num─┬─shard_weight─┬─replica_num─┬─host_name─────┬─host_address──┬─port─┬─is_local─┬─user────┬─default_database─┬─errors_count─┬─slowdowns_count─┬─estimated_recovery_time─┐
│ clickhouse_cluster_3shards_1replicas │         1 │            1 │           1 │ 192.168.12.91 │ 192.168.12.91 │ 9000 │        1 │ default │                  │            0 │               0 │                       0 │
│ clickhouse_cluster_3shards_1replicas │         2 │            1 │           1 │ 192.168.12.90 │ 192.168.12.90 │ 9000 │        0 │ default │                  │            0 │               0 │                       0 │
│ clickhouse_cluster_3shards_1replicas │         3 │            1 │           1 │ 192.168.12.88 │ 192.168.12.88 │ 9000 │        0 │ default │                  │            0 │               0 │                       0 │
└──────────────────────────────────────┴───────────┴──────────────┴─────────────┴───────────────┴───────────────┴──────┴──────────┴─────────┴──────────────────┴──────────────┴─────────────────┴─────────────────────────┘
3 rows in set. Elapsed: 0.001 sec.

# 2.任意节点连接
clickhouse-client --host 192.168.12.88 --port 9000 --password
ClickHouse client version 22.8.20.11 (official build).
Password for user (default): 
Connecting to 192.168.12.88:9000 as user default.
Connected to ClickHouse server version 22.8.20 revision 54460
zookeeper3 :) show databases;

SHOW DATABASES

Query id: 44b06878-6bfe-4a21-87a9-f8c31e6c79eb

┌─name───────────────┐
│ INFORMATION_SCHEMA │
│ default            │
│ information_schema │
│ system             │
└────────────────────┘
4 rows in set. Elapsed: 0.001 sec.

4.3 建库

官方文档：https://clickhouse.com/docs/zh/sql-reference/statements/create/database

CREATE DATABASE [IF NOT EXISTS] db_name [ON CLUSTER cluster] [ENGINE = engine(...)]

# 创建库
create database if not exists test_log on cluster clickhouse_cluster_3shards_1replicas;

 :) create database if not exists test_log on cluster clickhouse_cluster_3shards_1replicas;

CREATE DATABASE IF NOT EXISTS test_log ON CLUSTER clickhouse_cluster_3shards_1replicas

Query id: 62b9e7c8-6c78-4aee-adb2-dc1f360a96c2

┌─host──────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ 192.168.12.90 │ 9000 │      0 │       │                   2 │                0 │
│ 192.168.12.91 │ 9000 │      0 │       │                   1 │                0 │
│ 192.168.12.88 │ 9000 │      0 │       │                   0 │                0 │
└───────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘

3 rows in set. Elapsed: 0.132 sec. 

# 说明：
1.创建名称为test_log 的数据库
2.指定在集群 clickhouse_cluster_3shards_1replicas的所有服务器上创建 test_log 数据库
3. ENGINE = db_engine(...), 数据库引擎。ClickHouse 默认使用 Atomic 数据库引擎，即有默认值 ENGINE = Atomic。Atomic 引擎提供了可配置的 table engines 和 SQL dialect，
它支持非阻塞的DROP TABLE和RENAME TABLE查询和原子的表交换查询命令 EXCHANGE TABLES t1 AND t2。Atomic 中的所有表都有持久的 UUID，
数据存储在/clickhouse_path/store/xxx/xxxyyyyy-yyyy-yyyy-yyyy-yyyyyyyyyyyy/ 路径下。其中，xxxyyyyy-yyyy-yyyy-yyyy-yyyyyyyyyyyy是表 UUID，支持在不更改 UUID 和移动表数据的情况下执行重命名。
可以使用DatabaseCatalog，通过 UUID访问 Atomic 数据库中的表。执行DROP TABLE 命令，不会删除任何数据，Atomic 数据库只是通过将元数据移动到 /clickhouse_path/metadata_dropped/，并将表标记为已删除，
并通知 DatabaseCatalog

:) show databases;
SHOW DATABASES
Query id: 96a30aae-2b4b-4b2c-9e6f-c937e8cf44e4
┌─name───────────────┐
│ INFORMATION_SCHEMA │
│ default            │
│ information_schema │
│ system             │
│ test_log           │
└────────────────────┘

use system;
:) select * from databases;

SELECT *
FROM databases

Query id: 6ca6eef1-301d-48fb-bfbd-07862fd1ad5b

┌─name───────────────┬─engine─┬─data_path──────────────────────────┬─metadata_path───────────────────────────────────────────────────────────────┬─uuid─────────────────────────────────┬─comment─┐
│ INFORMATION_SCHEMA │ Memory │ /data/clickhouse/clickhouse/       │                                                                             │ 00000000-0000-0000-0000-000000000000 │         │
│ default            │ Atomic │ /data/clickhouse/clickhouse/store/ │ /data/clickhouse/clickhouse/store/332/3328f7da-3924-4bee-89e2-a8b1746145c5/ │ 3328f7da-3924-4bee-89e2-a8b1746145c5 │         │
│ information_schema │ Memory │ /data/clickhouse/clickhouse/       │                                                                             │ 00000000-0000-0000-0000-000000000000 │         │
│ system             │ Atomic │ /data/clickhouse/clickhouse/store/ │ /data/clickhouse/clickhouse/store/e3a/e3a6d729-193c-48a3-a8d5-947c8bfe3f37/ │ e3a6d729-193c-48a3-a8d5-947c8bfe3f37 │         │
│ test_log           │ Atomic │ /data/clickhouse/clickhouse/store/ │ /data/clickhouse/clickhouse/store/018/018b3c10-2d76-4aad-9e5c-6e22462d7c85/ │ 018b3c10-2d76-4aad-9e5c-6e22462d7c85 │         │
└────────────────────┴────────┴────────────────────────────────────┴─────────────────────────────────────────────────────────────────────────────┴──────────────────────────────────────┴─────────┘

5 rows in set. Elapsed: 0.001 sec.

4.4 建表

官方文档：https://clickhouse.com/docs/zh/sql-reference/statements/create/table

# 1) 创建本地表
CREATE TABLE [IF NOT EXISTS] [db.]table_name ON CLUSTER cluster
(
    name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1],
    name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2],
    ...
    INDEX index_name1 expr1 TYPE type1(...) GRANULARITY value1,
    INDEX index_name2 expr2 TYPE type2(...) GRANULARITY value2
) ENGINE = engine_name()
[PARTITION BY expr]
[ORDER BY expr]
[PRIMARY KEY expr]
[SAMPLE BY expr]
[SETTINGS name=value, ...];

选项描述：
db：指定数据库名称，如果当前语句没有包含‘db’，则默认使用当前选择的数据库为‘db’。
cluster：指定集群名称，目前固定为default。ON CLUSTER 将在每一个节点上都创建一个本地表。
type：该列数据类型，例如 UInt32。
DEFAULT：该列缺省值。如果INSERT中不包含指定的列，那么将通过表达式计算它的默认值并填充它。
MATERIALIZED：物化列表达式，表示该列不能被INSERT，是被计算出来的； 在INSERT语句中，不需要写入该列；在SELECT *查询语句结果集不包含该列。
ALIAS ：别名列。这样的列不会存储在表中。 它的值不能够通过INSERT写入，同时使用SELECT查询星号时，这些列也不会被用来替换星号。 但是它们可以用于SELECT中，在这种情况下，在查询分析中别名将被替换。
物化列与别名列的区别： 物化列是会保存数据，查询的时候不需要计算，而别名列不会保存数据，查询的时候需要计算，查询时候返回表达式的计算结果

以下选项与表引擎相关，只有MergeTree系列表引擎支持：

PARTITION BY：指定分区键。通常按照日期分区，也可以用其他字段或字段表达式。
ORDER BY：指定 排序键。可以是一组列的元组或任意的表达式。
PRIMARY KEY： 指定主键，默认情况下主键跟排序键相同。因此，大部分情况下不需要再专门指定一个 PRIMARY KEY 子句。
SAMPLE BY ：抽样表达式，如果要用抽样表达式，主键中必须包含这个表达式。
SETTINGS：影响 性能的额外参数。
GRANULARITY ：索引粒度参数。

# 创建分布式表

# 基于本地表创建一个分布式表
CREATE TABLE  [db.]table_name  ON CLUSTER default 
AS db.local_table_name   
ENGINE = Distributed(<cluster>, <database>, <shard table> [, sharding_key])

参数说明：
db：数据库名。
local_table_name：对应的已经创建的本地表表名。
shard table：同上，对应的已经创建的本地表表名。
sharding_key：分片表达式。可以是一个字段，例如user_id（integer类型），通过对余数值进行取余分片；也可以是一个表达式，例如rand()，通过rand()函数返回值/shards总权重分片；
为了分片更均匀，可以加上hash函数，如intHash64(user_id)。


# 创建本地表
CREATE TABLE test_log.test_local ON CLUSTER clickhouse_cluster_3shards_1replicas(id Int32,name String) ENGINE=TinyLog;

# 创建分布式表
CREATE TABLE test_all ON CLUSTER clickhouse_cluster_3shards_1replicas(id Int32, name String) ENGINE = Distributed(clickhouse_cluster_3shards_1replicas, test_log, test_local,id);


#在3台服务器上分别往表里写数据，最开始出现查询不了分布式库，又加了2条
192.168.12.91
insert into test_local(id, name) values (1, 'zhangsan');
insert into test_local(id, name) values (2, 'lisi');
insert into test_local(id, name) values (7, 'yw');
insert into test_local(id, name) values (8, 'xc');

192.168.12.90
insert into test_local(id, name) values (3, 'wangm');
insert into test_local(id, name) values (4, 'lijing');
insert into test_local(id, name) values (9, 'cx');
insert into test_local(id, name) values (10, 'aa');

192.168.12.88
insert into test_local(id, name) values (5, 'zhangquan');
insert into test_local(id, name) values (6, 'lihua');
insert into test_local(id, name) values (11, 'bb');
insert into test_local(id, name) values (12, 'acca');

# 查询本地表
:) select * from test_local;
SELECT *
FROM test_local
Query id: d3c540b5-6d0c-446b-aed7-3577e63db1ba
┌─id─┬─name─────┐
│  1 │ zhangsan │
│  2 │ lisi     │
└────┴──────────┘
2 rows in set. Elapsed: 0.001 sec.

# 查询分布式表
 :) select * from test_all;

SELECT *
FROM test_all

Query id: 0dc64653-b760-4144-beb7-1f25d3b2a303

┌─id─┬─name─────┐
│  1 │ zhangsan │
│  2 │ lisi     │
│  7 │ yw       │
│  8 │ xc       │
└────┴──────────┘
┌─id─┬─name───┐
│  3 │ wangm  │
│  4 │ lijing │
│  9 │ cx     │
│ 10 │ aa     │
└────┴────────┘
┌─id─┬─name──────┐
│  5 │ zhangquan │
│  6 │ lihua     │
│ 11 │ bb        │
│ 12 │ acca      │
└────┴───────────┘

12 rows in set. Elapsed: 0.005 sec.

# 往分布式表里插入一条数据，按照一定的规则插入到不同节点，也可以看出插入到那个节点的本地表里了
192.168.12.91中执行
insert into test_all(id, name) values (13, 'kkkk');

# 查看分布式表，可以看出写入到192.168.12.90的本地表里了
┌─id─┬─name─────┐
│  1 │ zhangsan │
│  2 │ lisi     │
│  7 │ yw       │
│  8 │ xc       │
└────┴──────────┘
┌─id─┬─name───┐
│  3 │ wangm  │
│  4 │ lijing │
│  9 │ cx     │
│ 10 │ aa     │
│ 13 │ kkkk   │
└────┴────────┘
┌─id─┬─name──────┐
│  5 │ zhangquan │
│  6 │ lihua     │
│ 11 │ bb        │
│ 12 │ acca      │
└────┴───────────┘
13 rows in set. Elapsed: 0.004 sec.

参考文献资料：

clickhouse集群部署指南(3分片1副本模式) ：注意安装

Clickhouse集群安装与部署：注意：chproxy这块

clickhouse集群部署与搭建：(扩缩容比较重点)

clickhouse测试注意测试就行

posted on 2023-07-21 16:37 杨梅冲阅读(461) 评论(0) 收藏举报