(1)机器学习实战笔记:机器学习的主要任务

 

 

11.23

排名前10的数据挖掘算法:
C4.5决策树,K-mean,支持向量机,Apriori、最大期望算法(EM)
PageRank算法,AdaBoost算法,k-近邻算法(kNN)
朴素贝叶斯算法(NB)、分类回归树(CART)
 
分类问题:有限个数的类别
 
回归:连续数据的预测
 
通常有两套独立的样本集:训练数据和测试数据
当机器学习程序运行时,开始:使用训练样本集作为算法的输入,训练完成后输入测试样本
输入测试样本不提供测试样本的目标变量,由程序决定样本属于哪个类别
比较测试样本预测的目标变量值与实际样本类别之间的差别就可以得出算法的实际精确度
 
监督学习:
k近邻 用于解决线性回归
朴素贝叶斯算法:用于解决局部加权线性回归
支持向量机:Ridge回归
决策树:Lasso 最小回归系数
 
无监督学习:数据没有类别信息,也没有目标值;
将数据集合分为由类似对象组成的多个类过程:聚类
将寻找描述数据统计值的过程:密度估计
无监督学习还可以减少数据特征的维度,以便我们可以使用维度或者3维图像更加直观地展示数据信息
k均值:最大期望算法
dbscan parzen窗设计
 
————————————————————————————————————————
before学习,需要考虑的问题:
1、使用机器学习算法的目的 想要算法完成何种任务
2、需要分析或者收集的数据是什么
 
若目标变量是离散型,可以选择分类算法
若目标变量是连续型,可以选择回归算法那
 
若不需要预测,可以选择无监督学习算法 进一步分析是否需要将数据划分为离散的组
 
 
————————————————————————————————————————
开发机器学习应用程序的步骤:
1、收集数据
2、准备输入的数据,要使得数据格式符合要求,,使得标准数据格式可以融合算法和数据源,方便匹配操作
 
3、分析输入数据,主要是人工分析以前得到是收据 要保证数据集中没有垃圾数据
4、训练算法:将前两步得到的格式化数据输入到算法 从中抽取知识或者信息,得到的知识需要存储为计算机可以处理的方式 方便后续步骤使用。
 
——————————————————————————————————————————
 
 
 
 
 

posted @ 2020-11-26 10:19  -DP-  阅读(283)  评论(0编辑  收藏  举报