眷恋你的方圆

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

以下内容都是通过看寄《机器学习实战》这本书后进行的总结。有疏漏的地方请指正。

 

一般在实际问题中选择相应的算法需考虑两个问题:

第一:使用算法的目标,想要算法完成何种任务。比如预测明天下雨的概率  还是 对鸟类进行种群划分。

            目的(大多数情况下):(1)想要预测目标变量的值,可以选择  监督学习算法

                  分类器算法:目标是离散型的,如是/否,1/2/3  ,A/B/C之类的,

                  回归算法:目标变量是连续型的数值,如0.0~100.0,-999~999等

               (2)不想预测目标变量的值,可以选择无监督学习算法。

                  聚类算法:如果唯一的要求就是将数据划分为离散的组。

                  密度估计算法:还需要估计数据与每个分组的相似程度。

第二:需要分析或者收集的数据是什么。

               需要对数据进行充分的理解,例如 (1)特征是是离散型变量还是连续型变量,特征值中是否存在缺失的值,何种原因造成缺失,数据是否存在异常值,某个特征发生的频率如何等等。

 

posted on 2017-09-16 17:45  眷恋你的方圆  阅读(175)  评论(0编辑  收藏  举报