05 2022 档案
摘要:Bitmap 实现 用户画像的标签 Bit-map的基本思想就是用一个bit位来标记某个元素对应的Value,而Key即是该元素。由于采用了Bit为单位来存储数据,因此节省存储空间; 如何存储一个数 0表示不存在,1表示存在 例如:存储{1,2,5,6}这四个整型数 Bitmap 去掉重复的整数型
阅读全文
摘要:Hadoop和Spark Spark 基于内存进行数据处理,适合数据量大,对实时性要求不高的场合。 Hadoop 要求每个步骤的数据序列化到磁盘,I/O成本高,导致交互分析迭代算法开销很大。 Hadoop 的MapReduce 表达能力有限,所有计算都要转换成 Map和Reduce两个操作,不能适用
阅读全文
摘要:数据仓库分层 ODS数据运营层 该层存储进行清洗后的源数据,如MySQL的数据映射到Hive中,装到Hive的数据就是ODS层。源数据装入该数据需要进行筛选,比如源数据有 name = 喻文波,age = - 100岁,该数据属于异常数据,需要处理(剔除)掉。 DW数据仓库层 数据仓库层(DW),是
阅读全文
摘要:用户画像 在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,其中最大的变化在于,用户的一切行为在企业面前是可“追溯”“分析”的。企业内保存了大量的原始数据和各种业务数据,这是企业经营活动的真实记录,如何更加有效地利用这些数据进行分析和评估,成为企业基于更大数据量背景的问题
阅读全文