机器学习第1章绪论

未完成:1.公式推导 https://datawhalechina.github.io/pumpkin-book/#/chapter1/chapter1

　　　 2.BP算法

1.1引言

经验以数据的形式存在，数据产生模型，模型提供判断

计算机科学是研究“算法”的学问，机器学习是研究关于“学习算法”的学问

模型泛指从数据中中学得的结果，有文献用“模型”指全局性结果（如一颗决策树），而用“模式”指局部性结果（如一条规则）

1.2 基本术语（例子举得不太好，下面编不下去了，可以继续使用西瓜）

记录的集合称为数据集（例：数据库中一张表表示一个数据集，一个班级所有的学生）

一条记录关于一个时间或者对象成为一个示例或一个样本（每个学生）

学号，姓名，性别称为属性或特征

男，女称为属性值

属性张成的空间称为“属性空间”或“样本空间”或“输入空间”

学号，姓名，性别作为3个坐标轴，则它们张成一个3维空间。

每个学生都可以在这个空间中找到自己的坐标位置，因此将一个示例称为一个特征向量

学得模型叫假设，潜在规律自身称之为真相或真实，学习过程就是为了找出或逼近真相

y是所有标记的集合（好学生，坏学生）称为“标记空间”或“输出空间”

预测的结果分为离散值（二分类【正类，反（负）类】和多分类）和连续值（回归）

根据训练数据是否拥有标记信息，学习任务可大致划分为两大类：监督学习和无监督学习，分类和回归是前者的代表，聚类是后者的代表

学得模型适用于新样本的能力，称为泛化能力。通常假设样本空间中全体样本服从一个未知分布，我们获得的每个样本都是独立的从这个分布上采样获得的，即“独立同分布”，一般而言，训练样本越多，我们得到关于D的信息就越多。

1.3 假设空间

指的是所有可能取值所形成的假设组成。

在学习过程中，可能有多个假设与训练集一致即存在着一个与训练集一致的“假设集合”，我们称之为“版本空间”。这个版本空间可以包含正值所有的判定。

1.4归纳偏好

归纳偏好就是有好几个模型适合我，但是我的偏好只有一个，里面用了一个“没有免费午餐”的证明，（反正我是看不懂，有南瓜书的推导公式，在文章的一开始）

就是说这几个模型对的概率一样，但是这个证明没用，面对实际问题，我有我的偏好，所以不用管他，他就是站着说话不腰疼。

1.5 发展历程

符号主义

连接主义

统计学习

不无关联就是有关系

1.6应用现状

数据挖掘是从海量数据中发掘知识。数据库领域的研究为数据挖掘提供数据管理技术，而机器学习和统计学的研究为数据挖掘提供数据分析技术。奥巴马选举成功得益于机器学习。

1.7阅读材料

介绍了一些材料和顶会，等学完了回过头来看可能会更懂一些吧。

posted @ 2021-01-18 22:33 51秒懂阅读(254) 评论(0) 收藏举报

刷新页面返回顶部

51秒懂