摘要: dmp中的广告推送 携程本身就可以是一个ADX,广告主想推送的广告平台可能不止携程一个,也可能是去哪儿等,携程本身有自己的DSP,RTB和DMP,广告主就可以做到直接将广告信息放入DSP,进行推送。 问:如果想要在百度和抖音等平台推送携程,是不是要分别对百度和抖音的DSP放入携程广告信息。 阅读全文
posted @ 2020-05-31 17:05 齐方 阅读(200) 评论(0) 推荐(0) 编辑
摘要: ETL(数据仓库技术) ETL,数据仓库技术,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。 ETL是将业务系统的数据经过抽 阅读全文
posted @ 2020-05-31 15:17 齐方 阅读(281) 评论(0) 推荐(0) 编辑
摘要: 用户画像作为“大数据”的核心组成部分,在众多互联网公司中一直有其独特的地位。作为国内旅游OTA的领头羊,携程也有着完善的用户画像平台体系。目前用户画像广泛用于个性化推荐,猜你喜欢等;针对旅游市场,携程更将其应用于“房型排序”“机票排序”“客服投诉”等诸多特色领域。 本文将从目的,架构、组成等几方面, 阅读全文
posted @ 2020-05-31 15:02 齐方 阅读(1553) 评论(0) 推荐(0) 编辑
摘要: 数据字段说明 一共有85个字段,包含用户和广告等数据 字段在Log类中,按照scala语法:由于元组一次无法传入85个字段,所以Log类中用了extends Product ETL需求实现 在ETL2HDFS类中 初始化环境的时候,指定序列化方式:serializer,默认压缩方式为snappy,默 阅读全文
posted @ 2020-05-31 11:00 齐方 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 地理位置GEOHASH算法 图计算 spark序列化问题 类字段过多导致异常?extends Product with Serializable 正确理解分布式程序 数据倾斜,某个task数据量过大 调优过程 用spark处理数据的时候,怎么保证数据的一致性? 这是一个wordCount案例,RDD 阅读全文
posted @ 2020-05-31 00:06 齐方 阅读(374) 评论(0) 推荐(0) 编辑
摘要: 互联网广告的分类 Banner 公告 插屏 全屏 富媒体广告 信息流广告 积分墙 移动视频广告:贴片和角标 原生广告 竞价排名 常用计费方式 CPA(Cost Per Action) 每行动成本 行动就是进行操作,比如登录,填写等 CPS(Cost Per Sales)每销售成本 进入且购买 CPM 阅读全文
posted @ 2020-05-30 09:43 齐方 阅读(1329) 评论(0) 推荐(0) 编辑
摘要: 网上搜了很多,都说要重新备份,可是我的D盘安装很多东西,最后没办法,尝试关机,(不是重启),关机过了5分钟吧,再开机就好了 阅读全文
posted @ 2020-05-10 08:19 齐方 阅读(259) 评论(0) 推荐(0) 编辑
摘要: 数据采集 开始要进行数据采集,就是运行爬虫脚本,爬虫脚本项目名为spider-csair. 运行准备:要开始nginx服务,在master上,/opt/apps/openristy/nginx/sbin/ 下,运行./nginx 每个机器上都运行zkServer.sh start开启zookeepe 阅读全文
posted @ 2020-05-06 22:34 齐方 阅读(213) 评论(0) 推荐(0) 编辑
摘要: ERR Slot 4648 i s already busy (Redis::CommandError) 开始创建redis集群服务器的时候出现了问题 这样就可以把可能存在的数据删除掉,确保每一个插槽是没被占用的,最后重新尝试创建redis集群服务器,创建成功,而且服务器之间也可以实现自动重定向:对 阅读全文
posted @ 2020-05-06 19:42 齐方 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 消费kafka数据 使用kafkaUtils.createDirectStream消费lua生产到kafka的数据 阅读全文
posted @ 2020-05-05 10:11 齐方 阅读(144) 评论(0) 推荐(0) 编辑