$王大少

导航

2020年3月31日 #

hive的三种交互方式

摘要: 第一种交互方式:Hive交互shell cd /export/servers/hive-1.1.0-cdh5.14.0 bin/hive 查看所有的数据库 hive (default)> show databases; 创建一个数据库 hive (default)> create database 阅读全文

posted @ 2020-03-31 16:05 $王大少 阅读(522) 评论(0) 推荐(0) 编辑

mysql的远程连接

摘要: 赋权 grant all privileges on *.* to 'root'@'%' identified by '123456' with grant option; 执行上面的命令之后要执行下面的命令刷新 FLUSH PRIVILEGES all 表示对数据的所有操作(insert dele 阅读全文

posted @ 2020-03-31 15:22 $王大少 阅读(120) 评论(0) 推荐(0) 编辑

Hive数据仓库

摘要: 一、数据仓库的概念: 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的 阅读全文

posted @ 2020-03-31 13:21 $王大少 阅读(399) 评论(0) 推荐(0) 编辑

yarn当中的调度器

摘要: yarn当中的调度器分为三种? 1、FIFO Scheduler 队列调度器,基本没人用 2、capacity scheduler 容量调度器,apache版本默认使用的调度器 3、Fair Scheduler 公平调度器,CDH版本的hadoop默认使用的调度器 使用哪种调度器取决于yarn-si 阅读全文

posted @ 2020-03-31 12:01 $王大少 阅读(139) 评论(0) 推荐(0) 编辑

2020年3月29日 #

hadoop中的压缩方式

摘要: 1、在代码中设置压缩 设置我们的map阶段的压缩 Configuration configuration = new Configuration();configuration.set("mapreduce.map.output.compress","true");configuration.set 阅读全文

posted @ 2020-03-29 16:14 $王大少 阅读(350) 评论(0) 推荐(0) 编辑

MapReduce的shuffle阶段

摘要: 1、shuffle概念: map阶段处理的数据如何传递给reduce阶段,是MapReduce框架中最关键的一个流程,这个流程就叫shuffle。 2、shuffle过程: shuffle: 洗牌、发牌——(核心机制:数据分区,排序,分组,规约,合并等过程)。 3、shuffle理解: shuffl 阅读全文

posted @ 2020-03-29 15:46 $王大少 阅读(322) 评论(0) 推荐(0) 编辑

ReduceTask工作机制和reduceTask的并行度

摘要: 1、reduceTask的并行度 取决于我们 自己的设置。 例如:设置我们的reduceTask的个数为6 job.setNumReduceTasks(6); 阅读全文

posted @ 2020-03-29 15:42 $王大少 阅读(261) 评论(0) 推荐(0) 编辑

mapTask运行机制

摘要: 1、每个切片会 启动一个mapTask去处理。 mapTask读取的文件是一个个的切片,跟我们的block块不是同一个概念切片的目的是为了控制每一个mapTask处理的文件的大小,现在默认的这个切片的大小,就是一个block块的大小 默认的切片就是128M一个,刚好跟我们的块大小吻合 2、每个map 阅读全文

posted @ 2020-03-29 14:25 $王大少 阅读(253) 评论(0) 推荐(0) 编辑

2020年3月28日 #

mapreducer调优

摘要: 一、mapreduce当中的计数器可以共我们调优 自定义计数器的两种方式? 1、在mapper里面 Counter counter = context.getCounter("MAP_INPUT_RECORD_COUNTER", "MAP_RECORD_NUM"); counter.incremen 阅读全文

posted @ 2020-03-28 20:54 $王大少 阅读(158) 评论(0) 推荐(0) 编辑

序列话和反序列化

摘要: 在java中 序列化(Serialization)是指把结构化对象转化为字节流 反序列化(Deserialization)是序列化的逆过程。把字节流转为结构化对象。 阅读全文

posted @ 2020-03-28 17:31 $王大少 阅读(118) 评论(0) 推荐(0) 编辑