上一页 1 2 3 4 5 6 7 8 ··· 13 下一页
摘要: 开启Map输出阶段压缩 减少job中map和reduce task间数据传输量 1.开启hive中间传输数据压缩功能 2.开启mapreduce中map输出压缩功能 3.设置mapreduce中map输出数据的压缩方式 开启Reduce输出阶段压缩 1.开启hive最终输出数据压缩功能 2.开启ma 阅读全文
posted @ 2020-05-22 22:50 Q1Zhen 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 自定义UDF 1.导入依赖 2.创建类,集成UDF,打jar,并放进hive/lib/目录下 3.在hive命令行中 4.使用自定义函数 自定义UDTF 1.导入依赖 2.创建类,集成GenericUDTF,实现方法 3.在hive命令行中 4.使用自定义函数 阅读全文
posted @ 2020-05-22 17:54 Q1Zhen 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 在Hadoop2.0之前,NameNode只有一个,存在单点问题(虽然Hadoop1.0有SecondaryNameNode,CheckPointNode,BackupNode这些,但是单点问题依然存在),在hadoop2.0引入了HA机制。Hadoop2.0的HA机制官方介绍了有2种方式,一种是N 阅读全文
posted @ 2020-05-22 00:06 Q1Zhen 阅读(275) 评论(0) 推荐(0) 编辑
摘要: Hbase集群基本组件说明 Client: 包含访问Hbase的接口,并维护cache来加快对Hbase的访问,比如region的位置信息。 HMaster: 是hbase集群的主节点,可以配置多个,用来实现HA 为RegionServer分配region 负责RegionServer的负载均衡 发 阅读全文
posted @ 2020-05-21 18:33 Q1Zhen 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 一、hadoop yarn 简介 Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配。 二、YARN架构 1. Resourc 阅读全文
posted @ 2020-05-21 13:07 Q1Zhen 阅读(617) 评论(0) 推荐(0) 编辑
摘要: 1.空字段复制 2.时间类 data_format:格式化时间 data_add:时间跟天数相加 data_sub:时间跟天数相减 datadiff:两个时间相减 3.case when 也可以用if(, , ) 4.行转列 concat(col...):连接两个字段内容变成一个字段内容 conca 阅读全文
posted @ 2020-05-20 00:58 Q1Zhen 阅读(332) 评论(0) 推荐(0) 编辑
摘要: 前言 学习总结一下Hive的分桶表。 分桶规则:对分桶字段值进行哈希,哈希值除以桶的个数求余,余数决定了该条记录在哪个桶中,也就是余数相同的在一个桶中。 优点:1、提高join查询效率 2、提高抽样效率 1、建表 通过 clustered by(字段名) into bucket_num bucket 阅读全文
posted @ 2020-05-19 22:51 Q1Zhen 阅读(424) 评论(1) 推荐(0) 编辑
摘要: 前言 用了这么久的Hive,而没有认真的学习和使用过Hive的分区,现在学习记录一下。 分区表一般在数据量比较大,且有明确的分区字段时使用,这样用分区字段作为查询条件查询效率会比较高。 Hive分区分为静态分区和动态分区 1、建表语句 先用一个有分区字段的分区表进行学习,静态分区和动态分区的建表语句 阅读全文
posted @ 2020-05-19 21:47 Q1Zhen 阅读(222) 评论(0) 推荐(0) 编辑
摘要: rsync主要用于备份和镜像 rsync和scp的区别 rsync复制要比scp快,并且只对差异文件做更新,scp是把所有文件复制粘贴。 语法 xsync 1.需求:集群分发,循环复制文件到所有节点的相同目录下 2.脚本实现:在/usr/local/bin目录下添加xsync脚本 修改脚本xsync 阅读全文
posted @ 2020-05-19 16:52 Q1Zhen 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 1.hadoop对hdfs集群的管理提供两种脚本 hadoop daemons.sh 本地启动脚本:对集群中的单个节点操作 start dfs.sh 集群启动脚本:对集群中所有节点统一操作 2.SSH免密登录(防止集群登录超时) ①生成公私钥 1 ssh keygen t rsa 在用户目录下有个. 阅读全文
posted @ 2020-05-19 15:03 Q1Zhen 阅读(187) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 13 下一页