机器学习笔记-基本概念
1定义(百度词条)
2.基本概念
训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归
3.概念学习
人类学习概念的方式,例如对鸟,车,计算机这些概念的认知(我们大多数都是别人说是什么,然后自己就认为什么,并不会过多的从类别、用途等方面去考虑)
概念学习指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数
概念定义在实例(instance)集合之上,这个集合表示为X。
待学习的概念或目标函数成为目标概念,记为c。
x:每一个实例
X:样例,所有实例的集合
学习目标:f:X->Y
4.几个基本术语
训练集(training set/data)/训练样例(training example):用来进行训练,也就是产生模型或者算法的数据集。
测试集(testing set/data)/测试样例(testing examples):用来专门进行测试已经学习好的模型或者算法的数据集。
特征向量(features/feature vector):属性的集合,通常用一个向量来表示,附属于一个实例。
标记(label):c(x),实例类别的标记
正例(positive example)反例(negative example)
5.解决问题的类别
分类(classification):目标标记为类别型数据(category)
回归(regression):目标标记为连续性数值(continuous numeric value)
6.机器学习方法
有监督学习(supervised learning):训练集有类别标记(class label)
无监督学习(unsupervised learning):无类别标记(no class label)
半监督学习(semi-supervised learning):有类别标记的训练集+无类别标记的训练集
7.机器学习步骤框架
a.把数据拆分为训练集和测试集
b.用训练集合训练集的特征向量来训练算法
c.用学习来的算法运用在测试集上来评估算法(可能会涉及到调整参数,用验证集等)
参考学习链接: