摘要: 前言 学习总结一下Hive的分桶表。 分桶规则:对分桶字段值进行哈希,哈希值除以桶的个数求余,余数决定了该条记录在哪个桶中,也就是余数相同的在一个桶中。 优点:1、提高join查询效率 2、提高抽样效率 1、建表 通过 clustered by(字段名) into bucket_num bucket 阅读全文
posted @ 2020-05-19 22:51 Q1Zhen 阅读(424) 评论(1) 推荐(0) 编辑
摘要: 前言 用了这么久的Hive,而没有认真的学习和使用过Hive的分区,现在学习记录一下。 分区表一般在数据量比较大,且有明确的分区字段时使用,这样用分区字段作为查询条件查询效率会比较高。 Hive分区分为静态分区和动态分区 1、建表语句 先用一个有分区字段的分区表进行学习,静态分区和动态分区的建表语句 阅读全文
posted @ 2020-05-19 21:47 Q1Zhen 阅读(222) 评论(0) 推荐(0) 编辑
摘要: rsync主要用于备份和镜像 rsync和scp的区别 rsync复制要比scp快,并且只对差异文件做更新,scp是把所有文件复制粘贴。 语法 xsync 1.需求:集群分发,循环复制文件到所有节点的相同目录下 2.脚本实现:在/usr/local/bin目录下添加xsync脚本 修改脚本xsync 阅读全文
posted @ 2020-05-19 16:52 Q1Zhen 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 1.hadoop对hdfs集群的管理提供两种脚本 hadoop daemons.sh 本地启动脚本:对集群中的单个节点操作 start dfs.sh 集群启动脚本:对集群中所有节点统一操作 2.SSH免密登录(防止集群登录超时) ①生成公私钥 1 ssh keygen t rsa 在用户目录下有个. 阅读全文
posted @ 2020-05-19 15:03 Q1Zhen 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 一、引言 HBase由于其存储和读写的高性能,在OLAP即时分析中越来越发挥重要的作用,在易观精细化运营产品 易观方舟也有广泛的应用。作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。HBase中的数据 阅读全文
posted @ 2020-05-19 10:10 Q1Zhen 阅读(147) 评论(0) 推荐(0) 编辑