上一页 1 2 3 4 5 6 7 ··· 14 下一页
摘要: (1)MR程序提交到客户端所在的节点。(2)YarnRunner向ResourceManager申请一个Application。(3)RM将该应用程序的资源路径返回给YarnRunner。(4)该程序将运行所需资源提交到HDFS上。(5)程序资源提交完毕后,申请运行mrAppMaster。(6)RM 阅读全文
posted @ 2020-07-04 14:08 地中有山 阅读(413) 评论(0) 推荐(0) 编辑
摘要: 切片机制源码: ①for (FileStatus file: files) 每个文件单独切片。 ②long length = file.getLen() 获取文件大小。 ③while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) SPLIT_S 阅读全文
posted @ 2020-07-04 11:27 地中有山 阅读(651) 评论(0) 推荐(0) 编辑
摘要: 工作流程1 Map Task MR工作流程2 Reduce Task 1)提交切片信息,jar包,和xml配置文件到yarn。2)Yarn ResourceManager启动一个MR AppMaster。3)AppMaster根据切片信息启动相应数量的Map Task。4)Map Task取读取按照 阅读全文
posted @ 2020-07-03 22:17 地中有山 阅读(283) 评论(0) 推荐(0) 编辑
摘要: HDFS写数据流程 1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 Block上传到哪几个DataNode服务器上。4)NameNode返 阅读全文
posted @ 2020-07-03 21:34 地中有山 阅读(289) 评论(0) 推荐(0) 编辑
摘要: 拉链表概念 拉链表,记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当前日期放入生效开始日期。如果当前日期至今有效,在生效结束日期中填入一个极大值,如9999-99-99。 拉链表适合于数据会发生变化,但是大部分是不变的。只在数据变化的时候进行记录,其他时候不做处理, 阅读全文
posted @ 2020-07-03 15:26 地中有山 阅读(417) 评论(0) 推荐(0) 编辑
摘要: GMV指标获取的全调度流程 import.job文件,第一步,从mysql导入数据 type=command do_date=${dt} command=/home/atguigu/bin/sqoop_import.sh all ${do_date} ods.job文件 type=command d 阅读全文
posted @ 2020-07-02 23:35 地中有山 阅读(339) 评论(0) 推荐(0) 编辑
摘要: 大数据开发的最后一环,将数仓中ADS层的数据,导出到MySql,剩下就是Java工程师的事了。 1 在MySql中创建对应的ADS表,字段和类型与数仓中的表一致,略。 2 数据导出脚本。 ①--update-mode updateonly:只更新,无法插入新数据。 allowinsert:允许新增 阅读全文
posted @ 2020-07-02 23:05 地中有山 阅读(431) 评论(0) 推荐(0) 编辑
摘要: 每月品牌复购率 = 某品牌本月被购买的次数 / 所有品牌本月被购买的次数。 分析: 完成品牌复购率需要建立一个宽表,宽表里面包括用户信息,商品信息,以及此商品购买的个数,即一个订单,根据订单里面的商品id不同,可能有多条这样的宽表记录。 有了宽表后,再做相应的统计工作。 一 用户购买商品明细表(宽表 阅读全文
posted @ 2020-07-02 17:46 地中有山 阅读(487) 评论(0) 推荐(0) 编辑
摘要: 一 ADS层之新增用户占日活跃用户比率 数据来源:ADS层用户活跃数表和每日新增设备表 建表语句: drop table if exists ads_user_convert_day; create external table ads_user_convert_day( `dt` string C 阅读全文
posted @ 2020-07-02 17:09 地中有山 阅读(664) 评论(0) 推荐(0) 编辑
摘要: GMV:Gross Merchandise Volume,是一段时间内的成交总额(比如一天、一个月、一年)。在电商网站定义里面是网站成交金额,包括付款和未付款的部分,不同公司的算法可能不同。 数据来源:上一步完成的用户行为宽表,里面包括了每个用户的订单个数,订单金额和支付总额。 建表语句: drop 阅读全文
posted @ 2020-07-02 16:11 地中有山 阅读(584) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 14 下一页