摘要: 不同地域的内容偏好性分析 摘要: 本报告简要分析了中国不同省市的用户对于凤凰网各主要频道的浏览偏好,以期为进一步的内容设置、区域营销及广告投放提供参考。主要结论如下: 1) 中国不同省市用户的内容偏好性有比较明显的差异,同时在各大区域之内又显示出一定的一致性。这一方面验证了方法的可靠性,也说明内容偏 阅读全文
posted @ 2017-06-02 14:44 闪电战 阅读(2090) 评论(0) 推荐(0) 编辑
摘要: 算法 渠道质量评价 阅读全文
posted @ 2017-06-02 14:25 闪电战 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 问题描述:根据用户标识和历史库的匹配结果,识别是否是新增用户,单位:天 要求:历史库每天累加更新,要考录用户历史数据库的幂等性及回补数据策略 输出: 用户pushid pushid对应的uid(如果当天没有没有登录就没有对应的pushid则从历史库中匹配) pushid当天和uid是否有对应关系 用 阅读全文
posted @ 2017-04-06 16:15 闪电战 阅读(4900) 评论(0) 推荐(0) 编辑
摘要: 起因:公司的移动APPsaas后台项目基本稳定,但是总感觉不够精炼,和一些成熟的开源python框架比感觉缺乏美感,总想着重构后台代码,但是做的时候一团乱麻,不知道从何处下手; 由于缺乏框架实现的经验,所以打算从使用的几个Python框架入手,先学习别人的框架设计思路; 以此为为记,2017年3月3 阅读全文
posted @ 2017-03-31 19:56 闪电战 阅读(747) 评论(0) 推荐(0) 编辑
摘要: HBase 阅读全文
posted @ 2016-07-11 16:05 闪电战 阅读(2228) 评论(0) 推荐(1) 编辑
摘要: 第一步:下载python2.7.4版本源码:wget http://python.org/ftp/python/2.7.4/Python-2.7.4.tgz解压文件[aa@localhost ~]$ tar jxvf Python-2.7.4.tar.bz2[niuxl@localhost ~]$ 阅读全文
posted @ 2016-05-06 12:56 闪电战 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 设置如下参数开启动态分区: hive.exec.dynamic.partition=true 默认值:false 描述:是否允许动态分区 hive.exec.dynamic.partition=true 默认值:false 描述:是否允许动态分区 hive.exec.dynamic.partitio 阅读全文
posted @ 2016-05-06 09:24 闪电战 阅读(421) 评论(0) 推荐(0) 编辑
摘要: 从一个表里group by 之后 计算累加值、去重值:为了效率设置并行:set hive.exec.parallel=true(可选:set hive.exec.parallel.thread.number=16)、set hive.groupby.skewindata=true、set hive.... 阅读全文
posted @ 2015-08-20 18:06 闪电战 阅读(3762) 评论(1) 推荐(0) 编辑
摘要: 用惯了python在使用java,在读取文件这真心觉得麻烦,写了一小段代码对java的读写进行了简单的封装,总算舒服了一点:package seleniumTest;import java.io.IOException;import java.io.File;import java.io.FileR... 阅读全文
posted @ 2015-07-31 13:06 闪电战 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 数据格式:时间(小时)/各个省份数据数据输入:locdata <- read.csv("./data.csv")此时locdata的类型为:data.frame需要转化为matric类型:locdata_m <- as.matrix(locdata)剔除数据:locdata_mt <- locdat... 阅读全文
posted @ 2015-07-31 12:56 闪电战 阅读(918) 评论(0) 推荐(0) 编辑