一、基本术语
一个示例=一个样本
属性=特征
属性值-属性空间
一个特征向量,即一个示例
训练集vs验证集vs测试集
假设:模型对应了关于数据的某种潜在规律
学习的任务:分类、回归、聚类
泛化能力:模型适用于新样本的能力
独立同分布:假设全体样本服从一个未知的分布,每个样本都是独立地从这个分布上采样获得的,即“独立同分布”
二、假设空间
1. 学习是一个“归纳”过程
2. 学习的过程看作是在所有假设组成的空间中,找到与训练集“匹配”的假设(能够将训练集中的示例判断正确的假设)
3. 假设的表示一旦确定,假设空间及其规模大小就确定了
4. 一个模型对应于一个假设
三、归纳偏好
用于选择“正确”的模型(对于某种类型的假设有偏好)
奥卡姆剃刀
没有免费的午餐 NFL
补充:机器学习步骤
-
选择数据:将数据集分成三部分,分别是训练集、验证集和测试集。
-
模型数据:用训练集来构建相关特征的模型。
-
验证模型:将验证数据导入到模型中。
-
测试模型:测试集检查被验证模型的表现。
-
使用模型:训练好的模型在新数据上做预测,分类,聚类。
-
调优模型:用更多数据、不同的特征或调整过的参数来提升算法的性能表现,提高模型的泛化性。
模型优化:
如果模型的结果不满意,这时候就要对其进行优化。
- 算法调优(Algorithm tuning)
- 集成方法/集成学习(Ensembles)
- 极端特征工程(Extreme Feature Engineering)