大数据-143 - ClickHouse 集群 SQL 超详细实践记录！原创

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

Hadoop（已更完）
HDFS（已更完）
MapReduce（已更完）
Hive（已更完）
Flume（已更完）
Sqoop（已更完）
Zookeeper（已更完）
HBase（已更完）
Redis （已更完）
Kafka（已更完）
Spark（已更完）
Flink（已更完）
ClickHouse（正在更新···）

章节内容

上节我们完成了如下的内容：

副本和分片
Distributed 部分
编码实际案例测试

在这里插入图片描述

基本介绍

ClickHouse 是一种用于 OLAP（在线分析处理）的列式数据库，因其高速数据处理能力在大数据分析中备受青睐。ClickHouse 的 SQL 语法与标准 SQL 类似，但由于其专注于分析场景，有一些特殊的扩展。ClickHouse 默认不支持直接 DELETE 或 UPDATE 操作，但可以通过分区管理和合并机制间接清理数据。ClickHouse 提供了很多专门为高效分析而设计的功能。ClickHouse 提供了丰富的聚合函数，如 sum()、avg()、min()、max()、count()。

基本 SQL 语法

ClickHouse 的 SQL 语法与标准 SQL 类似，但由于其专注于分析场景，有一些特殊的扩展。
创建表的时候：

CREATE TABLE table_name (
    column1 DataType,
    column2 DataType,
    ...
) ENGINE = MergeTree()
ORDER BY (primary_key_columns);

ENGINE：表引擎，最常用的是 MergeTree 系列。
ORDER BY：必须指定排序键，支持对大数据集高效查询。
PARTITION BY：按列进行分区（可选）。
SAMPLE BY：用于大数据量下的采样查询（可选）。

删除或清理表数据的时候：
ClickHouse 默认不支持直接 DELETE 或 UPDATE 操作，但可以通过分区管理和合并机制间接清理数据。

ALTER TABLE table_name DROP PARTITION partition_expr;

特殊功能

聚合函数

ClickHouse 提供了丰富的聚合函数，如 sum()、avg()、min()、max()、count()。此外，还有以下特殊聚合函数：

SELECT uniqExact(column) FROM table_name; -- 精确去重计数
SELECT quantiles(0.5, 0.9)(column) FROM table_name; -- 分位数计算

窗口函数

ClickHouse 支持窗口函数，但语法略有不同。常见窗口函数有 row_number()、rank() 等：

SELECT column, rowNumber() OVER (PARTITION BY partition_column ORDER BY sort_column) 
FROM table_name;

数组和嵌套类型

ClickHouse 支持数组和嵌套类型，适合处理复杂的数据结构：

SELECT arrayJoin(array) FROM table_name;

arrayJoin：将数组展开为多行

MergeTree 引擎

MergeTree 是 ClickHouse 最常用的引擎之一，具备排序、索引和分区的特性，能够高效处理海量数据。

ORDER BY：定义主键，数据按照该字段排序。
PRIMARY KEY：可以和 ORDER BY 一致，用于快速定位。
PARTITION BY：用于数据按逻辑分片，减少查询范围。
TTL：设置数据过期时间，自动清理历史数据。

基本状况

目前我是ClickHouse的集群环境：

h121.wzk.icu
h122.wzk.icu
h123.wzk.icu

建立连接

我们随机找一台建立链接

clickhouse-client -m --host h121.wzk.icu --port 9001 --user default --password clickhouse@wzk.icu

新建库

CREATE DATABASE mydatabase;

执行结果如下图所示：
在这里插入图片描述

可以看到对应的路径如下所示：

cd /var/lib/clickhouse/data
ls

执行结果如下图，可以看到我们刚才创建的数据库：
在这里插入图片描述

查看数据库

SHOW DATABASES;

运行结果如下图：
在这里插入图片描述

新建表

# 方式1
CREATE TABLE my_table(
  title String,
  url String,
  eventTime DateTime
) ENGINE = Memory;

# 方式2
CREATE TABLE mydatabase.my_table(
  title String,
  url String,
  eventTime DateTime
) ENGINE = Memory;

# 方式3
CREATE TABLE mydatabase.my_table_2(
  title String,
  url String,
  eventTime DateTime
) ENGINE = Memory AS SELECT * FROM mydatabase.my_table;

执行结果如下图所示：
在这里插入图片描述

查表结构

DESC my_table;

执行结果如下图：
在这里插入图片描述

插入数据

INSERT INTO my_table VALUES ('wzk', '123', now());

执行的结果如下所示：
在这里插入图片描述

临时表

CREATE TABLE tmp_v1 (
  title String,
  create_time DateTime
) ENGINE = Memory;

如果临时表与正常表名字相同，临时表优先。
临时表的引擎只能是Memory，数据是临时的，断点数据就没了。
更多的是在ClickHouse内部，是数据在集群间传播度的载体。

分区表

创建新表

CREATE TABLE partition_v1 (
  `id` String,
  `url` String,
  `eventTime` Date
) ENGINE = MergeTree()
PARTITION BY toYYYYMM(eventTime)
ORDER BY id;

执行结果如下所示：
在这里插入图片描述

只有合并树（MergeTree）家族的表引擎支持分区表，可以利用分区表，做定位查询，缩小查询范围。分区字段不易设置的太小。

插入数据

INSERT INTO partition_v1 (id, url, eventTime) VALUES
('1', 'http://example.com/page1', '2024-01-01'),
('2', 'http://example.com/page2', '2024-01-15'),
('3', 'http://example.com/page3', '2024-02-01'),
('4', 'http://example.com/page4', '2024-02-15'),
('5', 'http://example.com/page5', '2024-03-01'),
('6', 'http://example.com/page6', '2024-03-15');

执行结果如下图所示：
在这里插入图片描述

查询数据

SELECT * FROM partition_v1;

执行结果如下所示：
在这里插入图片描述

查看分区

SELECT table, partition, path FROM system.parts WHERE table = 'partition_v1';

执行结果如下图所示：
在这里插入图片描述

视图表

普通视图：不保存数据，只是一层单纯的SELECT查询映射，起着简化查询的作用
物化视图：保存数据，源表被写入数据，物化视图也会同步更新
POPULATE修饰符：决定在创建物化视图的过程中是否将源表的数据同步到物化视图。

表基本操作

只有 MergeTree、Merge、Distribution这三类表引擎支持ALTER操作！！！

追加字段

ALTER TABLE partition_v1 ADD COLUMN os String default 'mac';
ALTER TABLE partition_v1 ADD COLUMN ip String after id;
DESC partition_v1;

执行结果如下：
在这里插入图片描述

修改类型

注意：类型需要互相兼容

ALTER TABLE partition_v1 modify column ip IPv4;
DESC partition_v1;

执行结果如下图所示：
在这里插入图片描述

修改备注

ALTER TABLE partition_v1 COMMENT COLUMN id '主键ID';
DESC partition_v1;

执行结果如下图所示：
在这里插入图片描述

删除字段

ALTER TABLE partition_v1 DROP COLUMN url;
DESC partition_v1;

注意，删除字段会把该字段下的数据一起删除：
在这里插入图片描述

移动表

rename TABLE default.partition_v1 to mydatabase.partition_v1;
USE mydatabase;
SHOW TABLES;

执行结果如下图所示：
在这里插入图片描述

分区操作

查看分区

SELECT partition_id, name, table, database FROM system.parts where table = 'partition_v1';

执行结果如下所示：
在这里插入图片描述

删除分区

ALTER TABLE partition_v1 DROP PARTITION 202401;
SELECT partition_id, name, table, database FROM system.parts where table = 'partition_v1';

执行结果如下图所示：
在这里插入图片描述

复制分区

ALTER TABLE partition_v2 replace partition 202402 FROM partition_v1;

重置分区

ALTER TABLE partition_v1 CLEAR COLUMN ip in partition  202402;

将 ip 列的值清空（设置为默认值）。
清空操作不会删除记录，而是将指定列的值设置为默认值（如 0 或 NULL，具体取决于列的默认设置）。

执行结果如下图所示：
在这里插入图片描述

卸载分区

ALTER TABLE partition_v1 DETACH partition 202402;
SELECT partition_id, name, table, database FROM system.parts where table = 'partition_v1';

执行结果如下图所示：
在这里插入图片描述

转载分区

ALTER TABLE partition_v1 ATTACH partition 202402;
SELECT partition_id, name, table, database FROM system.parts where table = 'partition_v1';

执行结果如下图所示：
在这里插入图片描述

posted @ 2024-09-21 09:59 武子康阅读(0) 评论(0) 编辑收藏举报来源

刷新页面返回顶部

相关博文：

· 大数据-136 - ClickHouse 集群表引擎详解1 - 日志、Log、Memory、Merge 原创

· 大数据-135 - ClickHouse 集群 - 数据类型实际测试原创

· ClickHouse数据库

· ClickHouse入门

· ClickHouse在大数据领域应用实践

阅读排行：
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码，我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· 白话解读 Dapr 1.15：你的「微服务管家」又秀新绝活了
· 上周热点回顾（2.24-3.2）

公告

昵称：武子康
园龄： 7个月
粉丝： 3
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类

大模型 LLM(1)

随笔档案

阅读排行榜

1. LLM-01 大模型本地部署运行 ChatGLM2-6B-INT4(6GB) 简单上手环境配置单机单卡多卡 2070Super8GBx2 打怪升级！(404)

大数据-143 - ClickHouse 集群 SQL 超详细实践记录！ 原创

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

章节内容

基本介绍

基本 SQL 语法

特殊功能

聚合函数

窗口函数

数组和嵌套类型

MergeTree 引擎

基本状况

建立连接

新建库

查看数据库

新建表

查表结构

插入数据

临时表

分区表

创建新表

插入数据

查询数据

查看分区

视图表

表基本操作

追加字段

修改类型

修改备注

删除字段

移动表

分区操作

查看分区

删除分区

复制分区

重置分区

卸载分区

转载分区

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜

大数据-143 - ClickHouse 集群 SQL 超详细实践记录！原创