2020年6月18日
摘要: 点击流数据 点击流数据:关注的是用户访问网站的轨迹,按照时间来进行先后区分 基本上所有的大型网站都有日志埋点 通过js的方式,可以获取到你再网站上面点击的所有的链接,按钮,商品,等等,包括你访问的url的链接等等 埋点收集的数据,都发送到日志服务器 一条日志大概1Kb来算 数据全部在日志服务器 分析 阅读全文
posted @ 2020-06-18 17:42 hatcher_h 阅读(391) 评论(0) 推荐(0)
  2020年6月17日
摘要: 简介 apache开源提供的一个数据导入导出的工具,从关系型数据库导入到hdfs,或者从hdfs导出到关系型数据库等等 从关系型数据库到hdfs 叫做导入 从hdfs到关系型数据库 叫做导出 通过MR的inputformat和outputformat来实现数据的输入与输出,底层执行的全部都是MR的任 阅读全文
posted @ 2020-06-17 15:54 hatcher_h 阅读(122) 评论(0) 推荐(0)
  2020年6月7日
摘要: 概念 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 模型 a)Source:采集组件,用于跟数据源对接,以获取数据 b)Sink:下沉组件,用于往下一级agent传递数据或者往最终存储系统传递数据 c)Channel:传输通道组件,用于从source将数据传递到sink 阅读全文
posted @ 2020-06-07 19:32 hatcher_h 阅读(168) 评论(0) 推荐(0)
  2020年6月4日
摘要: 1、 feach 不走mr 能够不适用mr的时候尽量不适用mr。 hive.feach.task.conversion 的配置有none、minimal、more。 hive的默认配置是more. 设置为more后,下面hql都不执行mr. select * from xxx; select a f 阅读全文
posted @ 2020-06-04 10:41 hatcher_h 阅读(172) 评论(0) 推荐(0)
  2020年6月2日
摘要: 建库 创建一个hive数据库,在hdfs中就会创建一个文件夹 创建库 create database 库名; 查看库相关信息 desc database 库名; 查看库详细信息 desc database extended 库名; 建表 CREATE [EXTERNAL] TABLE [IF NOT 阅读全文
posted @ 2020-06-02 21:00 hatcher_h 阅读(151) 评论(0) 推荐(0)
  2020年6月1日
摘要: 数据仓库 数据仓库简称DW,用来存储数据。数据仓库不涉及事务操作。 目的 构建面向分析的集成化环境,主要对数据仓库的数据进行分析 特征 1、面向主题:数据分析需要一定的范围,需要选取一定的主题 2、集成:集成相关联的数据。数据仓库里面的数据是经过清洗的 3、非易失性:数据仓库的数据基本上是过去的数据 阅读全文
posted @ 2020-06-01 16:51 hatcher_h 阅读(173) 评论(0) 推荐(0)
  2020年5月31日
摘要: 分组 1、读文件 2、调用map逻辑,输出的类型 OrderBean NullWritable 3、定义orderBean orderId price 重写compareTo方法,判断,相同的orderId的数据按照价格排序 4、分区 按照orderId来进行分区规则,相同的orderId发送到同一 阅读全文
posted @ 2020-05-31 18:08 hatcher_h 阅读(564) 评论(0) 推荐(0)
  2020年5月30日
摘要: 自定义inputFormat小文件合并 package myInput; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.had 阅读全文
posted @ 2020-05-30 17:33 hatcher_h 阅读(343) 评论(0) 推荐(0)
  2020年5月28日
摘要: mapTask运行机制 mapTask并行度:同时存在几个mapTask TextInputFormat中的getSplits方法返回的是切片数目,有多少切片就有几个mapTask。 获取文件的切片的几个参数控制: mapred.min.split.size 没有配置的话默认值是1 mapred.m 阅读全文
posted @ 2020-05-28 22:00 hatcher_h 阅读(214) 评论(0) 推荐(0)
  2020年5月27日
摘要: 分区 相同key的value去同一个reduce 分区后需要指定reduceTask个数 package pation; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.ap 阅读全文
posted @ 2020-05-27 21:58 hatcher_h 阅读(193) 评论(0) 推荐(0)