上一页 1 ··· 5 6 7 8 9

2018年12月11日

MapReduce清洗日志数据统计PV量

摘要: 查看结果 阅读全文

posted @ 2018-12-11 16:44 PerfectData 阅读(361) 评论(0) 推荐(0) 编辑

Hadoop MapReduce自定义数据类型

摘要: 一 自定义数据类型的实现 1.继承接口Writable,实现其方法write()和readFields(), 以便该数据能被序列化后完成网络传输或文件输入/输出; 2.如果该数据需要作为主键key使用,或需要比较数值大小时,则需要实现WritalbeComparable接口,实现其方法write() 阅读全文

posted @ 2018-12-11 16:26 PerfectData 阅读(266) 评论(0) 推荐(0) 编辑

2018年12月6日

Hbase 表的Rowkey设计避免数据热点

摘要: 一、案例分析 常见避免数据热点问题的处理方式有:加盐、哈希、反转等方法结合预分区使用。 由于目前原数据第一字段为时间戳形式,第二字段为电话号码,直接存储容易引起热点问题,通过加随机列、组合时间戳、字段反转的方式来设计Rowkey,来实现既能高效查询又能避免热点问题。 二、代码部分 运行完程序后sca 阅读全文

posted @ 2018-12-06 11:54 PerfectData 阅读(1117) 评论(0) 推荐(0) 编辑

视频网站数据MapReduce清洗及Hive数据分析

摘要: 一.需求描述 利用MapReduce清洗视频网站的原数据,用Hive统计出各种TopN常规指标: 视频观看数 Top10 视频类别热度 Top10 视频观看数 Top20 所属类别包含这 Top20 视频的个数 视频观看数 Top50 所关联视频的所属类别的热度排名 每个类别中的视频热度 Top10 阅读全文

posted @ 2018-12-06 11:02 PerfectData 阅读(1853) 评论(0) 推荐(0) 编辑

2018年12月5日

小型大数据平台搭建

摘要: 目录 前言 一、 搭建环境 1.1集群规划 二、 集群的相关配置 2.1 新建用户hadoop 2.2 更改主机名 2.3 主机和IP做相关映射 2.4 SSH免密码登录 2.5 时间配置 2.6 整体安装目录安排 三、 Hadoop HA环境搭建 3.1 JDK配置 3.2 安装配置Zookeep 阅读全文

posted @ 2018-12-05 17:46 PerfectData 阅读(415) 评论(0) 推荐(0) 编辑

2018年11月29日

hive函数篇一

摘要: hive 查看函数: show functions; desc functions 函数名 1. 时间函数 1.1 时间戳函数--日期转时间戳:从1970-01-01 00:00:00 UTC到指定时间的秒数select unix_timestamp(); --获得当前时区的UNIX时间戳selec 阅读全文

posted @ 2018-11-29 14:38 PerfectData 阅读(357) 评论(0) 推荐(0) 编辑

上一页 1 ··· 5 6 7 8 9

导航