机器学习：基础概念及算法分类

一、关于数据

数据集：数据的整体，喂给算法的数据，一般为表格形式；
数据集中，每一行数据为一个样本，每行中的各列为每一个特征；
数据集中，除最后一列，每一列表达样本的一个特征；
最后一列，称为标记（label）：对本行样本进行分类；
如本行是猫的特征，在最后一列要标记此样本为猫的样本；若该样本特征是狗的，则在最后一列标记为狗的样本；
数据集首行为特征，对应下列各行为特征值，每一行特征值为一个特征向量；
特征空间(feature space)：数据集中的样本用空间中的一个点表示，数据集中有几种特征，就使用几维度的空间，此空间为特征空间。

通过对数据集的学习，算法系统再接受新的特征后可以自己判断该特征对应的事物；
事物的特征数据；
一般大写字母表示矩阵，小写字母表示向量；
向量分为行向量（1 X n）和列向量（n X 1），数学上一般将向量表示为列向量；
将数据集表示在坐标系中，有几种特征，就用几种维度的空间，一个样本就是特征空间中的一个点；
分类任务本质就是在特征空间切分；
图像识别中，将每一个像素做为一个特征；

二、机械学习的基本任务

　#一般监督学习领域解决的主要为分类问题和回归问题；

　1）分类

二分类任务：判断一个对象，是或不是、有或没有、是什么；
多分类任务：判定多个对象，做出选择；
多标签分类：一般多用于图像识别；

一些算法只支持完成二分类任务；
多分类任务可以转换成二分类任务；
有一些算法天然可以完成多分类任务；

　2）回归

　　特点：结果是一个连续数字的值，而不是一个类别；如预测房价

　　应用：预测房价、分析市场、预测学生成绩等；

　　#有一些算法只能解决回归问题，有一些算法只能解决分类问题，有些算法既能解决回归问题又能解决分类任务；

　　#一些回归任务和为分类任务可以互相转换；

　3）机械学习思路

输入大量的学习资料给机械学习算法，经过训练后，将该算法系统演变为一个模型；
输入新的样本给模型，模型可以自己做出判断或分析，得到结果；
输出结果一般分为两类：类别（分类问题）、数值（回归问题）；

　4）模型

训练数据集 = X_train + y_train
X_train：特征的具体值；
y_train：样本的标签，或者称样本的类别；
fit：拟合，算法训练出模型的过程；
predict：预测，给模型输入样例后得到输出结果的过程；

三、根据算法本身进行分类

　#监督学习、非监督学习、半监督学习、增强学习

　1）监督学习

　　特点：给算法的训练数据带有“标记”或者“答案”；

　　思路：已经对给机器的数据进行了正确答案的划分，这种划分就是监督的信息；

　2）非监督学习

　　特点：对没有“标记”的数据进行分类 - 聚类分析；

　　实例：电商平台的客户模型，根据客户对不同商品的浏览、选购等情况，对客户进行分类；

　　意义：对数据进行降维出来，特征提取、特征压缩（主要使用PCA）；

　　　特征压缩（主要用PCA算法降维）：在尽量少的损失信息的情况下，将高维的特征向量压缩为低维特征向量；

　　　特征压缩的作用：

　　　　A、提升了算法的运行效率，但不影响最终结果；

　　　　B、方便数据可视化；（因为人一般很难理解3维以上的维度）

　　　　C、异常检测：在样本空间中，排除明显不能表达样本的整体特性的样本点；

　3）半监督学习

　　特点：一部分数据有“标记”或者“答案”，另一部分数据没有；（一般实践中更长见）

　　思路：通常都先使用无监督学习手段对数据做处理，之后使用监督学习手段做模型的训练和预测；

　4）增强学习

　　特点：不断的根据反馈改进并优化算法系统；

　　思路：根据环境的情况采取行动，算法系统会得到相应的反馈（奖赏机制/惩罚机制），并根据反馈改进自己的行为模式，然后根据改进的算法系统对新的环境再次采取行动，并再次得到反馈；以此循环下去；

　　#AlphaGo就是采用增强学习算法系统、无人驾驶、机器人

　　#增强学习比较前沿，目前监督学习和非监督学习是基础；

四、机械学习的其它分类

　#在线学习和批量学习（离线学习）、参数学习和非参数学习

　1）批量学习（Batch Learning）

　　#也叫离线学习

　　特点：算法系统经过数据集训练后得到模型，直接被用于实践中，在实践中再次得到其它新的数据时，该算法系统不再对自身做调整和优化；

　　优点：简单，算法系统投入实践中后不用再考虑优化改进问题；

　　缺点：不能适应环境的变化；（一般机械学习算法系统所面临的问题，会随着时间不短变化，如垃圾邮件分类问题，垃圾邮件的定义随时间而定义不同）；

　　解决方案：对算法系统定时重新批量学习，重新训练模型，来适应环境变化；

　　方案弊端：每次重新批量学习，运算量巨大；而且不适用变化很快的环境中（如股市变化很快，无法对股市走向预测）；

　2）在线学习（Online Learning）

　　特点：算法系统经过训练后得到模型，被用于实践后，在实践中得到其它新的数据时，将该数据的结果反馈给算法系统，经过算法系统学习后，重新对模型进行改进优化；

　　优点：及时反映新的环境变化；

　　问题：新的数据带来不好的变化（这些不好的数据也可能是竞争对手故意抛出的数据），导致改进后的模型对正常数据判断的正确率下降了；

　　解决方案：增加一个非监督学习算法，加强对数据进行监控；

　　其它：在线学习，也适用于数据量巨大，一次性批量无法全部学习，可以将数据分批在线喂给模型；

　3）参数学习

　　特点：一旦学到了参数，就不再需要原有的数据集；

　　思路：已知特征和输出的关系（如线性关系：f(x) = a*x + b），将数据集喂给算法系统，得到关系中参数的值；

　　#一般特征和输出的关系，是统计上的假设；

　　#先预测特征和输出结果是统计学中的模型关系，之后的任务就是通过数据集学习并得到该统计模型中的参数；

　4）非参数学习

　　特点：不对模型进行过多统计上的假设或对问题建模，而是通过喂给算法数据集，得到特征和输出结果的关系模型；

　　# 非参数学习不等于没有参数；

五、机械学习的其它思考

　1）数据为王？　

机械学习算法主要处理不确定世界中真实的问题，所给我们的答案也是不确定的概率性的具有统计意义的答案；
传统经典算法不同，通常有固定的标准的答案；
机械学习的答案可靠吗？我们可以多大程度的相信这些答案？机械学习学习到的本质是什么？
2001年微软研究：不同质量的算法，随着喂给数据量的增加，算法的准确度也增加，并最后趋于100%；因此有数据即算法的说法（只要喂给算法的数据足够多，数据的质量足够好），接着就有了大数据的时代；？
数据很重要，因为数据驱动算法的准确度；
目前机械学习应用中：收集更多的数据、提高数据质量、提高数据的代表性、研究更重要的特征（即特征工程），是工作的主要内容；

　2）算法为王？

AlphaGo Zero：Starting from scratch（从零开始），前期人类并没有给AlphaGo Zero输入任何数据，所有的数据都是靠算法产生的（对于有些问题，即使没有数据，算法也能为我们生产数据），因此产生“算法为王”的说法；
AlphaGo Zero事件说明，算法本身很重要，再好的数据也需要优质高效的算法做辅助，才能最大程度的发挥数据本身的作用；但目前短时间内，机械学习领域中的任务，大部分是数据驱动的；

　3）“奥卡姆的剃刀”定理

机械学习中有很多算法，但解决的问题种类差不多，怎么选择算法来解决问题？选择原则：奥卡姆的剃刀，简单的就是好的，也就是对一个问题不要有过多的假设，不要有过多的复杂化；
机械学习领域中，什么叫“简单”？
机械学习中，处理的是不确定世界中的真实的问题，没有变准答案；

　4）“没有免费的午餐”定理　

“没有免费的午餐定理”：可以严格地用数学的方式推导出任意两个机械学习的算法，他们的期望性能（一个算法可以解决不同的问题，但应用在不同问题时的效果不一样，整体来说算法对解决问题的平均能力差不多）是相同的；根据这个理论可以得出，没有哪个算法比另一个算法好，相当于说算法是等价的，但针对具体问题时不同算法适用程度不同；目前机械学习主要解决具体的特定问题，因此需要学习多种算法，并在解决问题时选择更合适的算法，但整体而言，没有一个算法比另一个算法好；
“没有免费的午餐定理”也告诉我们：1）脱离具体问题，谈哪个算法更好是没有意义的；2）在们面对一个具体问题的时候，尝试使用多种算法进行对比试验，是必要的；

　5）其它

面对不确定的世界，怎么看待使用机械学习进行预测的结果？到底是机械学习算法本身起到了决定性的作用，使得我们得到了准确的预测结果？还是说只是一个巧合，机械学习算法本身并没有起到太大的作用？

posted @ 2018-05-10 19:52 何永灿阅读(655) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

机器学习：基础概念及算法分类

一、关于数据

二、机械学习的基本任务

1）分类

2）回归

3）机械学习思路

4）模型

三、根据算法本身进行分类

1）监督学习

2）非监督学习

3）半监督学习

4）增强学习

四、机械学习的其它分类

1）批量学习（Batch Learning）

2）在线学习（Online Learning）

3）参数学习

4）非参数学习

五、机械学习的其它思考

1）数据为王？

2）算法为王？

3）“奥卡姆的剃刀”定理

4）“没有免费的午餐”定理

5）其它

公告

　1）分类

　2）回归

　3）机械学习思路

　4）模型

　1）监督学习

　2）非监督学习

　3）半监督学习

　4）增强学习

　1）批量学习（Batch Learning）

　2）在线学习（Online Learning）

　3）参数学习

　4）非参数学习

　1）数据为王？　

　2）算法为王？

　3）“奥卡姆的剃刀”定理

　4）“没有免费的午餐”定理　

　5）其它