机器学习概述
机器学习定义
机器学习是一门从数据中研究算法的科学学科.
机器学习直白讲,是根据已有的数据,进行算法选择,并基于算法和数据构建模型,最终对未来进行预测
机器学习概念
•对于某给定的任务T,在合理的性能度量方案P的前提下,某计算机程序可以自主学习任
务T的经验E;随着提供合适、优质、大量的经验E,该程序对于任务T的性能逐步提高。
• 其中重要的机器学习对象:
• 任务Task T,一个或多个、经验Experience E、度量性能Performance P
• 即:随着任务的不断执行,经验的累积会带来计算机性能的提升。
• 美国卡内基梅隆大学(Carnegie Mellon University)机器学习研究领域的著名教授TomMitchell对机器学习的经典定义
机器学习是人工智能的一个分支。我们使用计算机设计一个系统,使它能够根据提供的训练数据按照一定的方式来学习;随着训练次数的增加,该系统可以在性能上不断学习和改进;通过参数优化的学习模型,能够用于预测相关问题的输出。
拟合:构建的算法符合给定数据的特征
鲁棒性:也就是健壮性、稳健性、强健性,是系统的健壮性;当存在异常数据的时候,算法也会拟合数据
过拟合:算法太符合样本数据的特征,对于实际生产中的数据特征无法拟合
欠拟合:算法不太符合样本的数据特征
有监督学习
无监督学习
半监督学习(SSL)
机器学习分类2
分类
通过分类模型,将样本数据集中的样本映射到某个给定的类别中
聚类
通过聚类模型,将样本数据集的样本分为几个类别,属于同一类别的样本相似性比较大
回归
反映了样本数据集中样本的属性值的特性,通过函数表达样本映射的关系来发现属性值之间的依赖关系
关联规则
获取隐藏在数据项之间的关联或相互关系,既可以根据一个数据项的出现推导出其他数据项的出现频率
机器学习算法top10