摘要: 1:在flume/job下配置flume-file-logger.conf配置文件 2:在flume根目录下开启监听(注意,如果当天没有使用hive产生过日志文件的话先操作hive产生当天日志文件) 3:操作hive产生日志文件,查看控制台 阅读全文
posted @ 2020-04-12 11:39 拔丝小红薯 阅读(783) 评论(0) 推荐(0) 编辑
摘要: 1:将Hadoop相关jar包放到/opt/module/flume/lib文件夹下 2:在flume/job文件夹下创建 flume-file-hdfs.conf文件 3:在配置文件中添加如下配置 4:在flume根目录执行监控配置 5:开启hdfs、yarn、hive 6:执行hive操作产生日 阅读全文
posted @ 2020-04-10 20:16 拔丝小红薯 阅读(739) 评论(0) 推荐(0) 编辑
摘要: 一:DDL 1:创建数据库 CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] //对数据库的描述 [LOCATION hdfs_path] //手动设置数据库存储路径 [WITH DBPROPERTIES 阅读全文
posted @ 2020-04-10 20:03 拔丝小红薯 阅读(965) 评论(0) 推荐(0) 编辑
摘要: 一:什么是Hive? Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 Hive本质是:将 HQL 转化成 MapReduce 程序 Hive 处理的数据存储在 阅读全文
posted @ 2020-04-04 09:51 拔丝小红薯 阅读(311) 评论(0) 推荐(0) 编辑
摘要: 一:创建永久节点 二:获取节点数据 三:设置节点数据 阅读全文
posted @ 2020-03-26 20:50 拔丝小红薯 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 一:ZK的选举机制 假使有3台服务器,id分别为1、2、3: 1、服务器1启动,投自己一票,启动的服务器未达半数以上,此时状态为looking 2、服务器2启动,重新投票,1和2都投自己1票并交换选票信息,1发现2的id比自己大,把自己的票重写投给2,此时服务器已经启动半数以上,完成选举。1为0票, 阅读全文
posted @ 2020-03-26 20:32 拔丝小红薯 阅读(466) 评论(0) 推荐(0) 编辑
摘要: 一:什么是Zookeeper? ZK是一个开源的分布式协调服务。他提供了一组简单的原生接口,分布式应用可以基于它实现,高水准的同步,集群,配置管理和命名服务。它基于开发, 使用简单的原则而设计。使用类似于文件系统目录树结构的数据模型。它基于java实现,可以为c和java应用服务。 二:他能干什么? 阅读全文
posted @ 2020-03-26 19:57 拔丝小红薯 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 一:Combiner概念 (1)Combiner是MR程序中Mapper和Reduce之外的一种组件 (2)Combiner组件的父类就是Reducer (3)Combiner和Reduce的区别主要在于运行位置 Combiner是在每一个MapTask所在的节点运行 Reduce是在接受全局所有M 阅读全文
posted @ 2020-03-22 19:18 拔丝小红薯 阅读(399) 评论(0) 推荐(0) 编辑
摘要: 一:排序概述 排序时是MapReduce框架最重要的操作之一 MapTask和ReduceTask均会对数据按照key进行排序,该操作是属于Hadoop的默认行为。任何应用程序中的数据均会被排序,不管你是否需要。 默认排序是按照字典顺序排序,实现该排序的方法是快速排序 二:排序分类 (1)全排序 只 阅读全文
posted @ 2020-03-22 19:05 拔丝小红薯 阅读(447) 评论(0) 推荐(0) 编辑
摘要: 一:每次从环形缓存区溢写的数据都会写到一组分区的某一个里面,最后通过归约排序将所有组的分区归成一组分区。配合设置ReduceTast的个数可以实现将数据最终写出到多个文件中。 二:默认分区是根据key的hasCode对ReduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区里。 三 阅读全文
posted @ 2020-03-22 17:29 拔丝小红薯 阅读(1001) 评论(0) 推荐(0) 编辑