打赏
摘要: 4 模块开发—数据预处理 4.1 主要目的: 过滤“不合规”数据 格式转换和规整 根据后续的统计需求,过滤分离出各种不同主题(不同栏目path)的基础数据 4.2 实现方式: 开发一个MapReduce程序WeblogPreProcess来实现逻辑; 运行mr对数据进行预处理:hadoop jar 阅读全文
posted @ 2018-07-18 15:24 QueryMarsBo 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 3 模块开发——数据采集 3.1 需求 数据采集的需求广义上来说分为两大部分。 1)是在页面采集用户的访问行为,具体开发工作: 1、开发页面埋点js,采集用户访问行为 2、后台接受页面js请求记录日志 此部分工作也可以归属为“数据源”,其开发工作通常由web开发团队负责 2)是从web服务器上汇聚日 阅读全文
posted @ 2018-07-18 15:22 QueryMarsBo 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 1.Sqoop的数据导出 将数据从HDFS导出到RDBMS数据库,导出前,目标表必须存在于目标数据库中 默认操作是将文件中的数据使用INSERT语句插入到表中 更新模式下,是生成UPDATE语句更新表数据 2.Sqoop的Export语法:$ sqoop export (generic-args) 阅读全文
posted @ 2018-07-18 07:30 QueryMarsBo 阅读(441) 评论(0) 推荐(0) 编辑