上一页 1 2 3 4 5 6 7 8 9 ··· 14 下一页
摘要: 实现思路:要知道今天有哪些用户是新增用户,需要知道两件事,一是今天所有的活跃用户,因此,新增用户的数据来源,还是DWS层的设备日活表,新增用户,就是部分日活的用户。二是要知道哪些用户在以前活跃过,用今日活跃用户减去以前活跃过的用户,剩下的就是新增用户。 DWS层(每日新增设备明细表) 建表语句。 分 阅读全文
posted @ 2020-06-26 21:18 地中有山 阅读(395) 评论(0) 推荐(0) 编辑
摘要: ①对某一主题的分析,涉及到DWS数据服务层和ADS数据应用层。 ②业务术语 用户:用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据IMEI号,IOS系统根据OpenUDID来标识一个独立用户,每部手机一个用户。 活跃用户:打开应用的用户即为活跃用户,不考虑用 阅读全文
posted @ 2020-06-26 18:13 地中有山 阅读(554) 评论(0) 推荐(0) 编辑
摘要: 一 collect_set函数,将某个字段形成一个数组 select course, collect_set(area), avg(score) from stud group by course; chinese ["sh","bj"] 79.0 math ["bj"] 93.5 还可以通过下标取 阅读全文
posted @ 2020-06-26 17:09 地中有山 阅读(577) 评论(0) 推荐(0) 编辑
摘要: DWD(Data Warehouse Detail):数据明细层,结构和粒度与原始表保持一致,对ODS层数据进行清洗(取出空值、脏数据、超过极限范围的数据)。 DWD层的数据来源于ODS原始数据层,在原始数据层的Hive表里,只有一个字段,存储了原始的一条条日志信息,下面以事件(如商品点击事件,展示 阅读全文
posted @ 2020-06-25 23:35 地中有山 阅读(1649) 评论(0) 推荐(1) 编辑
摘要: ODS(Operational Data Store):原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。 在ODS一般需要2个重要的步骤,示例如下: 1.建立ODS层的Hive表。 drop table if exists ods_start_log; CREATE EXTE 阅读全文
posted @ 2020-06-25 13:20 地中有山 阅读(1963) 评论(0) 推荐(0) 编辑
摘要: 定义 采用单钥密码系统的加密方法,同一个密钥可以同时用作信息的加密和解密,这种加密方法称为对称加密,也称为单密钥加密。 一 加密算法 DES : Data Encryption Standard,即数据加密标准,是一种使用密钥加密的块算法,1977年被美国联邦政府的国家标准局确定为联邦资料处理标准( 阅读全文
posted @ 2020-06-23 23:28 地中有山 阅读(1330) 评论(0) 推荐(0) 编辑
摘要: 简介 Base64是网络上最常见的用于传输8Bit字节码的可读性编码算法之一。所谓Base64,即是说在编码过程中使用了64种字符:大写A到Z、小写a到z、数字0到9、“+”和“/”。可读性编码算法不是为了保护数据的安全性,而是为了可读性。可读性编码不改变信息内容,只改变信息内容的表现形式。Base 阅读全文
posted @ 2020-06-22 23:31 地中有山 阅读(632) 评论(0) 推荐(0) 编辑
摘要: 一 写数据流程 1)Client先访问zookeeper,获取hbase:meta表位于哪个RegionServer。2)访问对应的RegionServer,获取hbase:meta表,根据读请求的namespace:table/rowkey,查询出目标数据位于哪个RegionServer中的哪个R 阅读全文
posted @ 2020-06-14 11:01 地中有山 阅读(1177) 评论(0) 推荐(0) 编辑
摘要: 由于memstore每次刷写都会生成一个新的HFile,且同一个字段的不同版本(timestamp)和不同类型(Put/Delete)有可能会分布在不同的HFile中,因此查询时需要遍历所有的HFile。为了减少HFile的个数,以及清理掉过期和删除的数据,会进行StoreFileCompactio 阅读全文
posted @ 2020-06-14 10:28 地中有山 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 用户操作HBase产生的数据并不是立即同步到HDFS,为了保证读写效率,而是先存在每个Region(存储水平切分后的所有列族的数据)对应的MemStore中,到达一定时机才会刷写到HDFS。 1 当某个memstroe的大小达到了hbase.hregion.memstore.flush.size(默 阅读全文
posted @ 2020-06-13 11:11 地中有山 阅读(284) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 14 下一页