摘要: 背景 AB Test时,除了保证算法不一样外,其他条件都需要保证不变。但是往往大家可能忽视了 保证用户分布的不变 。比如一个算法A除了可以召回付费用户外,还可以召回很多潜在付费用户,而算法B只能召回经常付费的用户,如果直接拿两个算法作用所有用户比较,此时显然用户的分布不一致,比较最终的统计指标意义不 阅读全文
posted @ 2019-03-30 22:02 吴烨 阅读(782) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2018.cnblogs.com/blog/1534023/201812/1534023-20181211151240177-924261393.png) 阅读全文
posted @ 2018-12-11 15:13 吴烨 阅读(1332) 评论(0) 推荐(0) 编辑
摘要: 先看一段官网的介绍 Apache Phoenix enables OLTP and operational analytics in Hadoop for low latency applications by combining the best of both worlds: the power 阅读全文
posted @ 2018-12-06 13:38 吴烨 阅读(289) 评论(0) 推荐(0) 编辑
摘要: 机器学习的套路 1.model如何对现实的场景进行抽象 2.model如何对参数进行求解 3.model的效果如何评价 1.抽象 例如线性回归,就是认为预测变量y和特征X之间存在线性关心,老掉牙的例子就是房价和地区收入,人口密度等等的线性关系 线性回归的数学假设有两个部分: 1. y的预测值是数据特 阅读全文
posted @ 2018-12-05 12:19 吴烨 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 原文出处:https://www.zhihu.com/question/267135168/answer/329318812 之前前读过一次这篇知乎文章,现在再次读来,感受很深,特别是妥协和矛盾,说的不就做推荐的人的日常工作么,泪奔。 再次摘抄下来,方便以后再读 不仅仅是机器学习,大部分理工科的思想 阅读全文
posted @ 2018-11-15 12:18 吴烨 阅读(920) 评论(0) 推荐(0) 编辑
摘要: 层次分析AHP,主要解决的业务痛点是无监督学习的时权重的确定。 没有样本,无法使用现有的各种机器学习的模型,来确定特征的权重。 具体内容见图片,博客园的markdown太难写了,还是写好传图片 阅读全文
posted @ 2018-11-14 14:02 吴烨 阅读(451) 评论(0) 推荐(0) 编辑
摘要: 孟岩大佬的博客给出了矩阵的本质:`运动` 阅读全文
posted @ 2018-11-11 19:48 吴烨 阅读(220) 评论(0) 推荐(0) 编辑
摘要: 数据处理是 Python 的一大应用场景,而 Excel 则是最流行的数据处理软件。因此用 Python 进行数据相关的工作时,难免要和 Excel 打交道。 如果仅仅是要以表单形式保存数据,可以借助 CSV 格式(一种以逗号分隔的表格数据格式)进行处理,Excel 也支持此格式。但标准的 Exce 阅读全文
posted @ 2018-11-11 19:38 吴烨 阅读(8356) 评论(0) 推荐(0) 编辑
摘要: 1.lateral view explode() 2.抽样 tablesample(10 rows) 每个split tablesample(bucket 3 out of 32 in rand()) tablesample(bucket 3 out of 32 in momo_id) 3.coun 阅读全文
posted @ 2018-11-11 19:27 吴烨 阅读(798) 评论(0) 推荐(0) 编辑