[数据挖掘] - 机器学习概述

机器学习主要是为了设计和分析一些让计算机可以自动"学习"的算法。即从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。

定义：机器学习是对能通过经验自动改进的计算机算法的研究

机器学习主要分为两大类，分别是：监督学习和无监督学习；监督学习是指对于输入的训练集中既有特征(feature)，也有标签(label)，学习的过程是找出特征和标签间的关系(mapping)；无监督学习是指输入训练集中只有特征(feature)，学习的过程是从这些输入数据集中找出这些特征的共性(找出标签label)，也就是聚类；监督学习主要包括两大类学习算法，分别为：统计分类和回归分析，具体算法包括：决策树、朴素贝叶斯、逻辑回归、KNN、SVM、神经网络、随机森林、AdaBoost、遗传算法等; 无监督学习也包括两大类型的学习算法，分别为:聚类和关联规则；具体算法包括：K-means、BIRCH、Apriori、C模糊聚类等

在机器学习算法中，通常将分类错误的样本数占总样本数的比率成为错误率(error rate)，即如果在m个总样本中有a个样本是错误的，那么错误率E = a / m; 对应的, 1 - a / m 被成为精度；更一般的来讲，将预测输出和样本实际输出之间的差异称为“误差”，通常将训练集上的误差成为“训练误差”或“经验误差”，在新样本上的误差被称为“泛化误差”；由于泛化误差只有在新样本中才可以看到，在训练模型的过程中只能得到经验误差，一般而已，如果检验误差为0，这种模型不是最好的模型。实际上来讲，我们希望的到的模型是在新样本上具有比较低的泛化误差的模型，那么在这个模型的构造过程中，可能存在两个问题：过拟合和欠拟合；过拟合是指机器学习算法的学习能力太强，将训练集中数据本身的特征当做所有数据的一般特征了，这样导致泛化能力下降；欠拟合指机器学习算法的学习能力太弱，无法将训练集中的数据一般特性归纳到最终的结果模型中。

posted @ 2017-02-22 09:44 liuming_1992 阅读(376) 评论(0) 收藏举报

刷新页面返回顶部

liuming_1992

[数据挖掘] - 机器学习概述

公告