hatcher_h - 博客园

2020年6月18日

摘要：点击流数据点击流数据：关注的是用户访问网站的轨迹，按照时间来进行先后区分基本上所有的大型网站都有日志埋点通过js的方式，可以获取到你再网站上面点击的所有的链接，按钮，商品，等等，包括你访问的url的链接等等埋点收集的数据，都发送到日志服务器一条日志大概1Kb来算数据全部在日志服务器分析阅读全文

posted @ 2020-06-18 17:42 hatcher_h 阅读(391) 评论(0) 推荐(0)

2020年6月17日

sqoop

摘要：简介 apache开源提供的一个数据导入导出的工具，从关系型数据库导入到hdfs，或者从hdfs导出到关系型数据库等等从关系型数据库到hdfs 叫做导入从hdfs到关系型数据库叫做导出通过MR的inputformat和outputformat来实现数据的输入与输出，底层执行的全部都是MR的任阅读全文

posted @ 2020-06-17 15:54 hatcher_h 阅读(122) 评论(0) 推荐(0)

2020年6月7日

flume

摘要：概念 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。模型 a)Source：采集组件，用于跟数据源对接，以获取数据 b)Sink：下沉组件，用于往下一级agent传递数据或者往最终存储系统传递数据 c)Channel：传输通道组件，用于从source将数据传递到sink 阅读全文

posted @ 2020-06-07 19:32 hatcher_h 阅读(168) 评论(0) 推荐(0)

2020年6月4日

hive调优

摘要： 1、 feach 不走mr 能够不适用mr的时候尽量不适用mr。 hive.feach.task.conversion 的配置有none、minimal、more。 hive的默认配置是more. 设置为more后,下面hql都不执行mr. select * from xxx; select a f 阅读全文

posted @ 2020-06-04 10:41 hatcher_h 阅读(172) 评论(0) 推荐(0)

2020年6月2日

hive相关操作

摘要：建库创建一个hive数据库，在hdfs中就会创建一个文件夹创建库 create database 库名；查看库相关信息 desc database 库名; 查看库详细信息 desc database extended 库名; 建表 CREATE [EXTERNAL] TABLE [IF NOT 阅读全文

posted @ 2020-06-02 21:00 hatcher_h 阅读(151) 评论(0) 推荐(0)

2020年6月1日

hive基础

摘要：数据仓库数据仓库简称DW,用来存储数据。数据仓库不涉及事务操作。目的构建面向分析的集成化环境，主要对数据仓库的数据进行分析特征 1、面向主题：数据分析需要一定的范围，需要选取一定的主题 2、集成：集成相关联的数据。数据仓库里面的数据是经过清洗的 3、非易失性：数据仓库的数据基本上是过去的数据阅读全文

posted @ 2020-06-01 16:51 hatcher_h 阅读(173) 评论(0) 推荐(0)

2020年5月31日

mapreduce分组、yarn资源调度配置

摘要：分组 1、读文件 2、调用map逻辑，输出的类型 OrderBean NullWritable 3、定义orderBean orderId price 重写compareTo方法，判断，相同的orderId的数据按照价格排序 4、分区按照orderId来进行分区规则，相同的orderId发送到同一阅读全文

posted @ 2020-05-31 18:08 hatcher_h 阅读(564) 评论(0) 推荐(0)

2020年5月30日

mapreduce练习

摘要：自定义inputFormat小文件合并 package myInput; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.had 阅读全文

posted @ 2020-05-30 17:33 hatcher_h 阅读(343) 评论(0) 推荐(0)

2020年5月28日

mapreduce流程

摘要： mapTask运行机制 mapTask并行度：同时存在几个mapTask TextInputFormat中的getSplits方法返回的是切片数目，有多少切片就有几个mapTask。获取文件的切片的几个参数控制： mapred.min.split.size 没有配置的话默认值是1 mapred.m 阅读全文

posted @ 2020-05-28 22:00 hatcher_h 阅读(214) 评论(0) 推荐(0)

2020年5月27日

mapreduce分区排序规约

摘要：分区相同key的value去同一个reduce 分区后需要指定reduceTask个数 package pation; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.ap 阅读全文

posted @ 2020-05-27 21:58 hatcher_h 阅读(193) 评论(0) 推荐(0)

公告