面试常考基本算法

决策树
https://zhuanlan.zhihu.com/p/26703300
随机森林
http://www.cnblogs.com/maybe2030/p/4585705.html
朴素贝叶斯分类
https://blog.csdn.net/amds123/article/details/70173402
协同过滤
https://blog.csdn.net/xiaokang123456kao/article/details/74735992

1. 决策树笔记

决策树的基本思想是这样的：一个样本有多个特征，我们判断一个样本的类别，不能只通过一个特征进行判断，而是要通过多个特征进行综合判断。我们可以先对一个特征进行判断，缩小判断结果范围，然后再对下一个特征进行判断。经过足够多的特征判断后，我们就可以得到比较正确的分类结果。
决策树举例如下图所示，每个非叶子节点表示一个特征，每条边对应特征的一个属性，叶子节点表示分类的一个类别。

摘自周志华老师西瓜书

2. 随机森林笔记

1. 随机森林的应用

随机森林可以用于统计客户的来源、保留、流失，预测疾病的风险等。

2. 随机森林的主要思想

随机森林是将多个决策树通过集成学习（Ensemble learning）的思想融合在一起，也就是每个决策树输出一个分类结果，然后以投票的方式，得到票数最多的那一类作为最终分类结果输出。

3. 随机森林的优点

具有很好的准确性；
能够运用在大数据集上；
能够处理高维数据；
能够对数据的每个特征对于分类问题的重要性进行评估。

4. 随机森林的生成

假设训练样本为N，那么对于每个决策树分类器，每次从样本库中“随机”有放回地抽取N个样本作为训练集来训练该决策树分类器。
“随机”是为了训练出不同的分类器，从而增加分类结果的可靠性；“有放回”是为了避免训练出的每个分类器的投票结果都不一样。
设每个样本有M个特征，指定一个数m<<M，从样本的M个特种中"随机"地选取m个特征，每次进行树的分裂时，从这个m个特征中选择最优的。
前面2点中的“随机”能使得随机森林有效地避免过拟合的问题，并且使其算法鲁棒性更强。

posted @ 2018-08-22 14:53 wumh7 阅读(166) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

wumh7