gbase里的分布表与复制表
一.分布表
分布表可以使数据按指定的策略分布存储在不同的主机上,从而实现分布式数据存储和分布式计算,解决大数据存储容量扩展和计算性能扩展的问题。
分布策略:采用hash分布、random分布策略存储数据
默认创建的表是随机分布表,每个节点上只保留部分表数据。
随机分布表如下:
CREATE TABLE table1(a int , b varchar(10));
hash分布表如下:
CREATE TABLE student
(no varchar(10),
name varchar(200),
sex int)
DISTRIBUTED BY('no');
选取distributed by列字段的原则
1.在多表JOIN查询时,表中某列经常用于JOIN等值关联;
2.表中该列通常是等值查询的列,并且使用的频率很高;
3.选取表中重复值较少的列,尽量让数据均匀分布。
4.选择count(distinct)值大的列做Hash分布列
注意:被选为distributed by列字段,有如下限制说明
1.distributed by当前只支持varchar、int两种数据类型。
2.distributed by列的值,不允许进行更新操作(update)。
3.distributed by列不允许设置 default 值。
建议: 除复制表外,其他表都要建成HASH分布表
HASH列的要求:空字符不能过多、字段值不能重复太多、尽量选用作为查询条件较多的字段。
二.复制表
复制表将会存在于各个节点上,即表的名字和数据完全一致。需要使用 REPLICATED 关键字来创建复制表。一般来说,小表比如配置表、字典表等数据量小(10w以下)可以被创建成复制表。一些表频繁参不JOIN查询表也可以被创建成复制表。
如:
CREATE TABLE table1( “COL” TYPE )
ENGINE=EXPRESS REPLICATED DEFAULT CHARSET=utf8
注意事项:
拷贝表,目标表默认为随机分布表,该方式建立的table1没有hash分布列,即使table22有hash分布列
create table table1 as select * from table22;
拷贝表,目标表为任意类型可在表名后指定类型
create table table1 distributed by ('fx') as select * from table22 limit 0;
create table table1 replicated as select * from table22 limit 0;
拷贝表,目标表类型与源表一致
create table table1 like table22;
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)