AYE89

coding & learning

导航

【基础知识一】绪论

Posted on 2017-08-09 22:41  AYE89  阅读(139)  评论(0编辑  收藏  举报

一、基本术语

一个示例=一个样本

属性=特征

属性值-属性空间

一个特征向量,即一个示例

训练集vs验证集vs测试集

假设:模型对应了关于数据的某种潜在规律

学习的任务:分类、回归、聚类

泛化能力:模型适用于新样本的能力

独立同分布:假设全体样本服从一个未知的分布,每个样本都是独立地从这个分布上采样获得的,即“独立同分布”

 

二、假设空间

1. 学习是一个“归纳”过程

2. 学习的过程看作是在所有假设组成的空间中,找到与训练集“匹配”的假设(能够将训练集中的示例判断正确的假设)

3. 假设的表示一旦确定,假设空间及其规模大小就确定了

4. 一个模型对应于一个假设

 

三、归纳偏好

用于选择“正确”的模型(对于某种类型的假设有偏好)

奥卡姆剃刀

没有免费的午餐 NFL

 

补充:机器学习步骤

  1. 选择数据:将数据集分成三部分,分别是训练集、验证集和测试集。

  2. 模型数据:用训练集来构建相关特征的模型。

  3. 验证模型:将验证数据导入到模型中。

  4. 测试模型:测试集检查被验证模型的表现。

  5. 使用模型:训练好的模型在新数据上做预测,分类,聚类。

  6. 调优模型:用更多数据、不同的特征或调整过的参数来提升算法的性能表现,提高模型的泛化性。

 

模型优化:

如果模型的结果不满意,这时候就要对其进行优化。

- 算法调优(Algorithm tuning)

- 集成方法/集成学习(Ensembles)

- 极端特征工程(Extreme Feature Engineering)