机器学习
- 从数据中自动分析获得模型,并利用模型对未知数据进行预测。
- 工作流程
- 获取数据
数据类型一:
特征值+目标值(目标值是连续的和离散的)
有明确的目标值 有监督的学习
目标值是明确类别(离散) 分类
目标值是连续的 回归
数据类型二:只有特征值,没有目标值,
无监督学习
- 数据基本处理,即对数进行缺失值、去除异常值等处理
- 特征工程
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程,让机器更好的识别
意义:会直接影响机器学习的效果
- 包含
1 特征提取:将任意数据(如文本或图像)转换为可用于机器学习的数字特征,转为机器识别的数字
2 特征预处理,通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程
3 特征降维, 指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程 3D>2D, 复杂问题简单化的一个方法
- 机器学习(模型训练)
- 模型评估
1 分类评估模型
精确率:查的全不全>得病的人是否都被预测结果
召回率:查的准不准>这个人的病是否可以被精确预测到
2 回归评估模型
均方误差
3 拟合
欠拟合 特征学习的太少了 解决:继续学习特征
过拟合 特征学习的太多了 解决:重新清洗数据 增大数据里 减少特征维度