机器学习第1章 绪论

未完成:1.公式推导 https://datawhalechina.github.io/pumpkin-book/#/chapter1/chapter1

    2.BP算法

1.1引言

经验以数据的形式存在,数据产生模型,模型提供判断

计算机科学是研究“算法”的学问,机器学习是研究关于“学习算法”的学问

模型泛指从数据中中学得的结果,有文献用“模型”指全局性结果(如一颗决策树),而用“模式”指局部性结果(如一条规则)

1.2 基本术语(例子举得不太好,下面编不下去了,可以继续使用西瓜)

记录的集合称为数据集(例:数据库中 一张表表示一个数据集,一个班级所有的学生)

一条记录关于一个时间或者对象成为一个示例或一个样本(每个学生)

学号,姓名,性别 称为属性或特征

男,女称为属性值

属性张成的空间称为“属性空间”或“样本空间”或“输入空间”

学号,姓名,性别 作为3个坐标轴,则它们张成一个3维空间。

每个学生都可以在这个空间中找到自己的坐标位置,因此将一个示例称为一个特征向量

 

学得模型叫假设,潜在规律自身称之为真相或真实,学习过程就是为了找出或逼近真相

y是所有标记的集合(好学生,坏学生)称为“标记空间”或“输出空间”

预测的结果分为离散值(二分类【正类,反(负)类】和多分类)和连续值(回归)

根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:监督学习 和无监督学习,分类和回归是前者的代表,聚类是后者的代表

学得模型适用于新样本的能力,称为泛化能力。通常假设样本空间中全体样本服从一个未知分布,我们获得的每个样本都是独立的从这个分布上采样获得的,即“独立同分布”,一般而言,训练样本越多,我们得到关于D的信息就越多。

 

1.3 假设空间

指的是所有可能取值所形成的假设组成。

在学习过程中,可能有多个假设与训练集一致即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间”。这个版本空间可以包含正值所有的判定。

1.4归纳偏好

归纳偏好就是有好几个模型适合我,但是我的偏好只有一个,里面用了一个“没有免费午餐”的证明,(反正我是看不懂,有南瓜书的推导公式,在文章的一开始)

就是说这几个模型对的概率一样,但是这个证明没用,面对实际问题,我有我的偏好,所以不用管他,他就是站着说话不腰疼。

1.5 发展历程

符号主义

连接主义

统计学习

不无关联就是有关系

1.6应用现状

数据挖掘是从海量数据中发掘知识。数据库领域的研究为数据挖掘提供数据管理技术,而机器学习和统计学的研究为数据挖掘提供数据分析技术。奥巴马选举成功得益于机器学习。

1.7阅读材料

介绍了一些材料和顶会,等学完了回过头来看可能会更懂一些吧。

posted @ 2021-01-18 22:33  51秒懂  阅读(213)  评论(0编辑  收藏  举报