dremio的学习点滴

在连接数据源后,进行数据源反射的创建,dremio会在本地创建一个类似于副本的文件,具体目录未知,当下次去执行sql时,则会启动加速器进行查询速度的优化。

反射策略:

full update:数据源全更新,每次更新所有源数据的反射

incremental update:增量数据更新,根据特定的字段进行数据更新,即使是null值,反射数据也会更新,一般依赖主键进行新数据的判断

更新类别统计如下

1.删除数据:反射不更新

2.点击refresh now:立即执行更新,更新规则与定时更新一致

3.新增数据行(包含标识字段):反射会更新

4.新增数据行(未包含标识字段,null):反射会更新

5.更新数据行(不更新标识字段):反射不更新

备注:若新增的数据行的标识的值,在原先的记录中已经存在,则并不会更新反射数据集

 

更新策略:
以小时、天、周为单位进行选择,也可以选择永不更新

过期策略:

同理

 

当执行sql时,确保单机的是run而不是preview

普通加速的反射:

 

 聚合加速的反射:

 

 

可以在同一个物理源数据集上,进行多种数据反射,比如创建以下数据反射

1.全字段数据反射

2.只选择部分字段进行反射,并排序、分区

3.进行聚合反射

以上反射数据源都是建立在一个数据集上,不同查询条件,dremio会自动选择最合适的反射数据集进行数据加速

 

posted @ 2020-02-28 15:18  初次的告白  阅读(1424)  评论(0编辑  收藏  举报