机器学习 sklearn
一、什么是机器学习?机器学习的方法是什么?
个人理解:机器学习是输入数据、设定模型,通过现有的数据进行学习,当传入新的数据时会根据之前的学习对新数据进行预测。
机器学习的方法基于数据存在一定的规律产生一定的模型的算法,又称学习算法。
二、机器学习的分类有哪些?
有监督学习、半监督学习、无监督学习、强化学习
1.有监督学习
1.1 定义
数据有标签、有特征
大致思路:针对数据的特征和标签之间的关联性进行建模,模型确定后,可以应用到新数据上的一种学习算法。
1.2学习过程及任务
输入已知的特征和标签,训练模型,输入新的特征得到预测的标签,查看模型的评估效果(就是将预测的标签与已知的标签进行对比)
任务分为:分类 classification 和 回归 regression
标签的数据类型:分类任务的标签是离散型数据;回归任务的标签是连续型数据
2.半监督学习
介于有监督学习和无监督学习之间,应用于数据不完整的情况
3.无监督学习
3.1定义
数据不带任何标签
针对不带任何标签的数据特征进行建模(数据自己介绍自己)的一种学习算法
3.2学习任务
聚类 clustering 和 降维 dimensionality reduction
聚类算法:对数据划分类别
降维算法:数据规律用简洁的形式表现
# 有监督学习和无监督学习的归纳
有监督学习:数据有特征、标签 分类、回归算法
无监督学习:数据无任何标签 聚类、降维算法
4.强化学习
以‘试错’的方式学习,依据自身的状态和动作实时改动以适应环境,不停的试探评价以达到最佳的效果。
三、常接触的学习算法
1.有监督学习
k近邻算法(KNN)、决策树、朴素贝叶斯、回归家族等
2.无监督学习
聚类算法、降维(主成分PCA)等
以上是本人所知的一些算法进行了汇总,不够全面,请谅解。