西瓜书课后习题——第一章

1.1

若表中只包含编号1和4两个样例,则训练数据集为

色泽 根蒂 敲声 是否好瓜
青绿 蜷缩 浊响
乌黑 稍蜷 沉闷

 

 

 

 

上表有三个属性,每个属性有两种取值,所以上述数据集的假设空间大小为3*3*3+1=28

编号 色泽 根蒂 敲声 与训练集正例是否一致
1 青绿 蜷缩 浊响
2 青绿 蜷缩 沉闷  
3 青绿 蜷缩
4 青绿 稍蜷 浊响  
5 青绿 稍蜷 沉闷  
6 青绿 稍蜷  
7 青绿 浊响
8 青绿 沉闷  
9 青绿
10 乌黑 蜷缩 浊响  
11 乌黑 蜷缩 沉闷  
12 乌黑 蜷缩  
13 乌黑 稍蜷 浊响  
14 乌黑 稍蜷 沉闷  
15 乌黑 稍蜷  
16 乌黑 浊响  
17 乌黑 沉闷  
18 乌黑  
19 蜷缩 浊响
20 蜷缩 沉闷  
21 蜷缩
22 稍蜷 浊响  
23 稍蜷 沉闷  
24 稍蜷  
25 浊响
26 沉闷  
27  
28 空集      

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

所以版本空间为假设1、3、7、9、19、21、25

  

1.2

 

训练数据集1.1有三个属性,色泽有3种情况(青绿、乌黑、※),根蒂有4种情况(蜷缩、硬挺、稍蜷、※),敲声有4种情况(浊响、清脆、沉闷、※),加上空集则共有3*4*4+1=49种假设。在不考虑沉余的情况下,最多包含49个合取式来表达假设空间,每次从中选取k个合取式来组成折合式,共有$\sum \left ( C_{49}^{k} \right )=2^{49}$种情况。但是其中包含了很多沉余的情况(至少存在一个合取式被剩余的析合式完全包含<空集除外>)。

 https://blog.csdn.net/icefire_tyh/article/details/52065626

 

1.3

通常认为两个数据的属性越相近,则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据,留下的数据就是没误差的数据,但是可能会丢失部分信息。

 

1.4

1.5

问题的特征表示:用一组特征向量来表示问题,需要体现出问题的语义方面的相关信息,类似自然语言处理。

 

posted @ 2019-04-11 22:02  zwtzz  阅读(1950)  评论(4编辑  收藏  举报