2018 年 10月 22 日随笔档案 - RL-Learning

2018年10月22日

摘要：决策树是一种很基本的分类与回归方法，但正如前面博文机器学习排序算法：RankNet to LambdaRank to LambdaMART中所讲的LambdaMART算法一样，这种最基本的算法却是很多经典、复杂、高效的机器学习算法的基础。关于什么是决策树，网上一搜就会有很多博客文章，所以本文并不想讨论这个话题。本文想讨论的是决策树中两个非常重要的决策指标：熵和基尼指数。熵和基尼指数都是用来定义随机变量的不确定性的指标。下面先介绍什么是随机变量的不确定性。什么是随机变量的不确定性？举个例子，比如一个班级有50个同学，每个同学都有且仅有一部智能手机，问：如果任意选择一位同学，他可能用什么品牌的手机？如果这个班的同学全部都用苹果手机，那这个问题很好回答，也即“从这个班中任意选取的一位同学用什么品牌的手机”这个随机变量是确定的，不确定性为0。但如果这个班级中$\frac{1}{3}$的同学用小米手机，$\frac{1}{3}$的同学用苹果手机，其余$\frac{1}{3}$的同学用华为手机，这种情况下，这个变量的不确定性明显增大了。那接下来就需要考虑另外一个问题：什么情况下，这个变量的不确阅读全文

posted @ 2018-10-22 09:42 RL-Learning 阅读(14704) 评论(0) 推荐(2) 编辑

RL-Learning

关注搜索排序、机器学习和自然语言处理

公告