面试常考基本算法

  1. 决策树
    https://zhuanlan.zhihu.com/p/26703300
  2. 随机森林
    http://www.cnblogs.com/maybe2030/p/4585705.html
  3. 朴素贝叶斯分类
    https://blog.csdn.net/amds123/article/details/70173402
  4. 协同过滤
    https://blog.csdn.net/xiaokang123456kao/article/details/74735992

1. 决策树笔记

决策树的基本思想是这样的:一个样本有多个特征,我们判断一个样本的类别,不能只通过一个特征进行判断,而是要通过多个特征进行综合判断。我们可以先对一个特征进行判断,缩小判断结果范围,然后再对下一个特征进行判断。经过足够多的特征判断后,我们就可以得到比较正确的分类结果。
决策树举例如下图所示,每个非叶子节点表示一个特征,每条边对应特征的一个属性,叶子节点表示分类的一个类别。


摘自周志华老师西瓜书

2. 随机森林笔记

1. 随机森林的应用

随机森林可以用于统计客户的来源、保留、流失,预测疾病的风险等。

2. 随机森林的主要思想

随机森林是将多个决策树通过集成学习(Ensemble learning)的思想融合在一起,也就是每个决策树输出一个分类结果,然后以投票的方式,得到票数最多的那一类作为最终分类结果输出。

3. 随机森林的优点

  1. 具有很好的准确性;
  2. 能够运用在大数据集上;
  3. 能够处理高维数据;
  4. 能够对数据的每个特征对于分类问题的重要性进行评估。

4. 随机森林的生成

  1. 假设训练样本为N,那么对于每个决策树分类器,每次从样本库中“随机”有放回地抽取N个样本作为训练集来训练该决策树分类器。
    “随机”是为了训练出不同的分类器,从而增加分类结果的可靠性;“有放回”是为了避免训练出的每个分类器的投票结果都不一样。
  2. 设每个样本有M个特征,指定一个数m<<M,从样本的M个特种中"随机"地选取m个特征,每次进行树的分裂时,从这个m个特征中选择最优的。
  3. 前面2点中的“随机”能使得随机森林有效地避免过拟合的问题,并且使其算法鲁棒性更强。
posted @ 2018-08-22 14:53  wumh7  阅读(166)  评论(0编辑  收藏  举报