风雨中的小七

2019年10月21日

AB实验的高端玩法系列1 - AB实验人群定向/个体效果差异/HTE/Uplift Model 论文github收藏

摘要：一直以来机器学习希望解决的一个问题就是'what if'，也就是决策指导： - 如果我给用户发优惠券用户会留下来么？ - 如果患者服了这个药血压会降低么？ - 如果APP增加这个功能会增加用户的使用时长么？ - 如果实施这个货币政策对有效提振经济么？这类问题之所以难以解决是因为ground tru 阅读全文

posted @ 2019-10-21 07:01 风雨中的小七阅读(14353) 评论(2) 推荐(1) 编辑

2019年7月2日

聊聊模型指标的那些事儿2 - Binary classification实战篇

摘要：

- 你的分类模型输出的概率只是用来做样本间的相对排序，还是概率本身？ - 你的训练数据本身分布如何是否存在Imbalanced Sample？阅读全文

posted @ 2019-07-02 23:02 风雨中的小七阅读(1391) 评论(0) 推荐(1) 编辑

2019年7月1日

聊聊模型指标的那些事儿1 - Binary classification回忆篇

摘要：

在解决分类问题的时候，可以选择的评价指标简直不要太多。但基本可以分成两2大类，我们今分别来说道说道基于一个概率阈值判断在该阈值下预测的准确率衡量模型整体表现（在各个阈值下）的评价指标阅读全文

posted @ 2019-07-01 10:02 风雨中的小七阅读(2764) 评论(0) 推荐(0) 编辑

2019年6月16日

打分排序系统漫谈3 - 贝叶斯更新/平均

摘要：

想要从本质上解决小样本估计不置信的问题，一个更符合思维逻辑的方法是我们先基于经验给出一个预期估计，然后不断用收集到的样本来对我们的预期进行更新，这样在样本量小的时候，样本不会对我们的预期有较大影响，估计值会近似于我们预先设定的经验值，从而避免像小样本估计不置信的问题。阅读全文

posted @ 2019-06-16 13:08 风雨中的小七阅读(2492) 评论(4) 推荐(3) 编辑

2019年2月10日

打分排序系统漫谈2 - 点赞量？点赞率?! 置信区间！

摘要：

在第一篇打分系统漫谈1 - 时间衰减我们聊了两种相对简单的打分算法Hacker News和Reddit Hot Formula，也提出了几个这两种算法可能存在的问题，这一篇我们就其中的两一个问题进一步讨论：如何综合浏览量和点赞量对文章进行打分[期望效用函数->点赞率] 如何解决浏览量较小时，点赞率不置信的问题[wald Interval -> wilson] 阅读全文

posted @ 2019-02-10 11:37 风雨中的小七阅读(3301) 评论(2) 推荐(1) 编辑

2019年2月7日

打分排序系统漫谈1 - 时间衰减

摘要：

打分排序系统的应用非常普遍，比如电影的评分，知乎帖子的热度，和新闻文章的排序。让我们从最简单直观的平均打分开始，聊聊各种打分方法的利弊和使用场景。阅读全文

posted @ 2019-02-07 11:37 风雨中的小七阅读(5176) 评论(0) 推荐(1) 编辑

2018年7月23日

Tree - XGBoost with parameter description

摘要： In the previous post, we talk about a very popular Boosting algorithm [Gradient Boosting Decision Tree][1]. The key of GBM is using Gradient Descent t 阅读全文

posted @ 2018-07-23 11:01 风雨中的小七阅读(972) 评论(0) 推荐(0) 编辑

2018年7月16日

Tree - Gradient Boosting Machine with sklearn source code

摘要： This is the second post in Boosting algorithm. In the previous post, we go through the earliest Boosting algorithm [AdaBoost][1], which is actually an 阅读全文

posted @ 2018-07-16 01:39 风雨中的小七阅读(848) 评论(0) 推荐(0) 编辑

2018年6月10日

Tree - AdaBoost with sklearn source code

摘要： In the previous post we addressed some issue of decision tree, including instability, lack of smoothness, sensitivity to data, and etc. One solution i 阅读全文

posted @ 2018-06-10 22:12 风雨中的小七阅读(1149) 评论(0) 推荐(0) 编辑

2018年6月4日

Tree - Decision Tree with sklearn source code

摘要： After talking about Information theory, now let's come to one of its application Decision Tree! Nowadays, in terms of prediction power, there are many 阅读全文

posted @ 2018-06-04 00:51 风雨中的小七阅读(1530) 评论(0) 推荐(0) 编辑