12 2018 档案

HBase操作一
摘要:1 package Hbase; 2 3 import java.io.IOException; 4 import org.apache.hadoop.conf.Configuration; 5 import org.apache.hadoop.hbase.Cell; 6 import org.apache.hadoop.hbase.CellUtil; 7 impo... 阅读全文

posted @ 2018-12-18 13:44 PerfectData 阅读(141) 评论(0) 推荐(0) 编辑

随机生成字符串方法
摘要:1 package beifeng.hadoop; 2 3 import java.util.Random; 4 import org.apache.commons.lang.RandomStringUtils; 5 6 /** 7 * Three Methods to generate random string. 8 */ 9 10 public clas... 阅读全文

posted @ 2018-12-17 22:17 PerfectData 阅读(1359) 评论(0) 推荐(0) 编辑

MapReduce之Map Join
摘要:一 介绍 之所以存在Reduce Join,是因为在map阶段不能获取所有需要的join字段,即:同一个key对应的字段可能位于不同map中。Reduce side join是非常低效的,因为shuffle阶段要进行大量的数据传输。 Map Join是针对以下场景进行的优化:两个待连接表中,有一个表 阅读全文

posted @ 2018-12-15 23:16 PerfectData 阅读(402) 评论(0) 推荐(0) 编辑

MapReduce之Reduce Join
摘要:一 介绍 Reduce Join其主要思想如下: 在map阶段,map函数同时读取两个文件File1和File2,为了区分两种来源的key/value数据对,对每条数据打一个标签(tag), 比如:tag=0表示来自文件File1,tag=2表示来自文件File2。即:map阶段的主要任务是对不同文 阅读全文

posted @ 2018-12-15 22:17 PerfectData 阅读(591) 评论(0) 推荐(0) 编辑

MapReduce清洗日志数据统计PV量
摘要:查看结果 阅读全文

posted @ 2018-12-11 16:44 PerfectData 阅读(367) 评论(0) 推荐(0) 编辑

Hadoop MapReduce自定义数据类型
摘要:一 自定义数据类型的实现 1.继承接口Writable,实现其方法write()和readFields(), 以便该数据能被序列化后完成网络传输或文件输入/输出; 2.如果该数据需要作为主键key使用,或需要比较数值大小时,则需要实现WritalbeComparable接口,实现其方法write() 阅读全文

posted @ 2018-12-11 16:26 PerfectData 阅读(278) 评论(0) 推荐(0) 编辑

Hbase 表的Rowkey设计避免数据热点
摘要:一、案例分析 常见避免数据热点问题的处理方式有:加盐、哈希、反转等方法结合预分区使用。 由于目前原数据第一字段为时间戳形式,第二字段为电话号码,直接存储容易引起热点问题,通过加随机列、组合时间戳、字段反转的方式来设计Rowkey,来实现既能高效查询又能避免热点问题。 二、代码部分 运行完程序后sca 阅读全文

posted @ 2018-12-06 11:54 PerfectData 阅读(1126) 评论(0) 推荐(0) 编辑

视频网站数据MapReduce清洗及Hive数据分析
摘要:一.需求描述 利用MapReduce清洗视频网站的原数据,用Hive统计出各种TopN常规指标: 视频观看数 Top10 视频类别热度 Top10 视频观看数 Top20 所属类别包含这 Top20 视频的个数 视频观看数 Top50 所关联视频的所属类别的热度排名 每个类别中的视频热度 Top10 阅读全文

posted @ 2018-12-06 11:02 PerfectData 编辑

小型大数据平台搭建
摘要:目录 前言 一、 搭建环境 1.1集群规划 二、 集群的相关配置 2.1 新建用户hadoop 2.2 更改主机名 2.3 主机和IP做相关映射 2.4 SSH免密码登录 2.5 时间配置 2.6 整体安装目录安排 三、 Hadoop HA环境搭建 3.1 JDK配置 3.2 安装配置Zookeep 阅读全文

posted @ 2018-12-05 17:46 PerfectData 阅读(425) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示