算法部分
算法原则之一:优先尝试简单原则。
1,朴素贝叶斯分类:
算法使用前提:所有变量对分类均是有用的,即输出依赖于所有的属性;这些变量是相互独立的,即不相关的。之所以称为“朴素”,就是因为这些假设从未被证实过。
http://www.cnblogs.com/zhangchaoyang/articles/2586402.html
(1)如果出现0频现象的话,就违背了基本假设,输出依赖于所有属性,此时需要进行平滑处理
(2)如果属性取值为连续数值变量(数值属性的时候),假定服从正太分布。
(3)朴素贝叶斯可以用于文档分类
(上述公式怎么看?)
朴素贝叶斯未必不优于其他方法。
2,归纳决策树ID3:
http://www.cnblogs.com/zhangchaoyang/articles/2196631.html
(随着树深度增加,节点的熵值迅速降低,目标是得到一棵高度最矮的决策树?)
选择信息增益最大的作为决策树的根节点,直到所有的叶子节点为纯节点
问题:分类问题为什么能够转换为一刻决策树,朴素贝叶斯公式解读?
3,C4.5十大算法之首
http://www.cnblogs.com/zhangchaoyang/articles/2842490.html
不过说句实话,看不大明白