摘要:
一直以来机器学习希望解决的一个问题就是'what if',也就是决策指导: - 如果我给用户发优惠券用户会留下来么? - 如果患者服了这个药血压会降低么? - 如果APP增加这个功能会增加用户的使用时长么? - 如果实施这个货币政策对有效提振经济么? 这类问题之所以难以解决是因为ground tru 阅读全文
摘要:
- 你的分类模型输出的概率只是用来做样本间的相对排序,还是概率本身?
- 你的训练数据本身分布如何是否存在Imbalanced Sample? 阅读全文
摘要:
在解决分类问题的时候,可以选择的评价指标简直不要太多。但基本可以分成两2大类,我们今分别来说道说道
基于一个概率阈值判断在该阈值下预测的准确率
衡量模型整体表现(在各个阈值下)的评价指标 阅读全文
摘要:
想要从本质上解决小样本估计不置信的问题,一个更符合思维逻辑的方法是我们先基于经验给出一个预期估计,然后不断用收集到的样本来对我们的预期进行更新,这样在样本量小的时候,样本不会对我们的预期有较大影响,估计值会近似于我们预先设定的经验值,从而避免像小样本估计不置信的问题。 阅读全文
摘要:
在第一篇打分系统漫谈1 - 时间衰减我们聊了两种相对简单的打分算法Hacker News和Reddit Hot Formula,也提出了几个这两种算法可能存在的问题,这一篇我们就其中的两一个问题进一步讨论:
如何综合浏览量和点赞量对文章进行打分[期望效用函数->点赞率]
如何解决浏览量较小时,点赞率不置信的问题[wald Interval -> wilson] 阅读全文
摘要:
打分排序系统的应用非常普遍,比如电影的评分,知乎帖子的热度,和新闻文章的排序。让我们从最简单直观的平均打分开始, 聊聊各种打分方法的利弊和使用场景。 阅读全文
摘要:
In the previous post, we talk about a very popular Boosting algorithm [Gradient Boosting Decision Tree][1]. The key of GBM is using Gradient Descent t 阅读全文
摘要:
This is the second post in Boosting algorithm. In the previous post, we go through the earliest Boosting algorithm [AdaBoost][1], which is actually an 阅读全文
摘要:
In the previous post we addressed some issue of decision tree, including instability, lack of smoothness, sensitivity to data, and etc. One solution i 阅读全文
摘要:
After talking about Information theory, now let's come to one of its application Decision Tree! Nowadays, in terms of prediction power, there are many 阅读全文