西瓜书课后习题——第一章

1.1

若表中只包含编号1和4两个样例，则训练数据集为

色泽	根蒂	敲声	是否好瓜
青绿	蜷缩	浊响	是
乌黑	稍蜷	沉闷	否

上表有三个属性，每个属性有两种取值，所以上述数据集的假设空间大小为3*3*3+1=28

编号	色泽	根蒂	敲声	与训练集正例是否一致
1	青绿	蜷缩	浊响	是
2	青绿	蜷缩	沉闷
3	青绿	蜷缩	※	是
4	青绿	稍蜷	浊响
5	青绿	稍蜷	沉闷
6	青绿	稍蜷	※
7	青绿	※	浊响	是
8	青绿	※	沉闷
9	青绿	※	※	是
10	乌黑	蜷缩	浊响
11	乌黑	蜷缩	沉闷
12	乌黑	蜷缩	※
13	乌黑	稍蜷	浊响
14	乌黑	稍蜷	沉闷
15	乌黑	稍蜷	※
16	乌黑	※	浊响
17	乌黑	※	沉闷
18	乌黑	※	※
19	※	蜷缩	浊响	是
20	※	蜷缩	沉闷
21	※	蜷缩	※	是
22	※	稍蜷	浊响
23	※	稍蜷	沉闷
24	※	稍蜷	※
25	※	※	浊响	是
26	※	※	沉闷
27	※	※	※
28	空集

所以版本空间为假设1、3、7、9、19、21、25

1.2

训练数据集1.1有三个属性，色泽有3种情况（青绿、乌黑、※），根蒂有4种情况（蜷缩、硬挺、稍蜷、※），敲声有4种情况（浊响、清脆、沉闷、※），加上空集则共有3*4*4+1=49种假设。在不考虑沉余的情况下，最多包含49个合取式来表达假设空间，每次从中选取k个合取式来组成折合式，共有$\sum \left ( C_{49}^{k} \right )=2^{49}$种情况。但是其中包含了很多沉余的情况(至少存在一个合取式被剩余的析合式完全包含<空集除外>)。

https://blog.csdn.net/icefire_tyh/article/details/52065626

1.3

通常认为两个数据的属性越相近，则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类，则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据，留下的数据就是没误差的数据，但是可能会丢失部分信息。

1.4

1.5

问题的特征表示：用一组特征向量来表示问题，需要体现出问题的语义方面的相关信息，类似自然语言处理。

posted @ 2019-04-11 22:02 zwtzz 阅读(2005) 评论(4) 收藏举报

刷新页面返回顶部

zwtgyh

I wish you could keep your hope forever, and your faith.

西瓜书课后习题——第一章