摘要: 解决方法,就是在项目的src下创建名为scala的路径,并且Mark Directory as Source root 同样在test中也创建,然后Mark Directory as Test Sources Root 阅读全文
posted @ 2020-05-31 19:03 齐方 阅读(150) 评论(0) 推荐(0) 编辑
摘要: dmp中的广告推送 携程本身就可以是一个ADX,广告主想推送的广告平台可能不止携程一个,也可能是去哪儿等,携程本身有自己的DSP,RTB和DMP,广告主就可以做到直接将广告信息放入DSP,进行推送。 问:如果想要在百度和抖音等平台推送携程,是不是要分别对百度和抖音的DSP放入携程广告信息。 阅读全文
posted @ 2020-05-31 17:05 齐方 阅读(200) 评论(0) 推荐(0) 编辑
摘要: ETL(数据仓库技术) ETL,数据仓库技术,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。 ETL是将业务系统的数据经过抽 阅读全文
posted @ 2020-05-31 15:17 齐方 阅读(281) 评论(0) 推荐(0) 编辑
摘要: 用户画像作为“大数据”的核心组成部分,在众多互联网公司中一直有其独特的地位。作为国内旅游OTA的领头羊,携程也有着完善的用户画像平台体系。目前用户画像广泛用于个性化推荐,猜你喜欢等;针对旅游市场,携程更将其应用于“房型排序”“机票排序”“客服投诉”等诸多特色领域。 本文将从目的,架构、组成等几方面, 阅读全文
posted @ 2020-05-31 15:02 齐方 阅读(1553) 评论(0) 推荐(0) 编辑
摘要: 数据字段说明 一共有85个字段,包含用户和广告等数据 字段在Log类中,按照scala语法:由于元组一次无法传入85个字段,所以Log类中用了extends Product ETL需求实现 在ETL2HDFS类中 初始化环境的时候,指定序列化方式:serializer,默认压缩方式为snappy,默 阅读全文
posted @ 2020-05-31 11:00 齐方 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 地理位置GEOHASH算法 图计算 spark序列化问题 类字段过多导致异常?extends Product with Serializable 正确理解分布式程序 数据倾斜,某个task数据量过大 调优过程 用spark处理数据的时候,怎么保证数据的一致性? 这是一个wordCount案例,RDD 阅读全文
posted @ 2020-05-31 00:06 齐方 阅读(374) 评论(0) 推荐(0) 编辑