摘要: 1. 朴素贝叶斯公式P(C|D)=P(D|C)P(C)/P(D)=P(D|C)P(C)/{求和c属于C,P(D|C=c)P(C=c)}可以利用朴素贝叶斯公式计算文档d属于哪一个类别Ci,可以将该文档归类于概率最大的那一类,用于文档分类,垃圾处理概率空间模型;多重伯努力模型,P(w|c)=DFw,c/Nc;这里DFw,c类别C中包含w的文本数量,Nc:表示训练样本中类别c的文本数量,通过最大似然估计,通过将文档拆分成词项,求解概率,通过乘积。多项式模型,考虑了此项的数量问题,计算概率,使贝叶斯分类其器成为一般的分类算法的最好选择;支持向量机:与基于概率论原理的朴树贝叶斯完全不同,是基于几何学原. 阅读全文
posted @ 2013-11-24 12:46 曹守鑫 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 聚类算法基于无监督学习,集不需要任何训练数据,聚类算法针对一个没有标注的实例集合,对所有实例分组。这里介绍两类算法,一个是层次聚类,一个是K均值聚类,主要差别在目标函数不同。层次聚类分为两种:一种以分层的方式建立分组,另一种以聚合聚类。当迭代收敛时停止运算。层次聚类之间主要是代价函数不同cost(Ci,Cj),计算出所有的簇对代价后,选出合并代价最低的两个簇。代价函数:单连同方法,cost(Ci,Cj)=min{dist(Xi,Xj)|Xi属于Ci,Xj属于Cj},通常利用欧几里德距离公式全连通方法:cost(Ci,Cj)=max{dist(Xi,Xj)}平均连通方法:cost(Ci,Cj)= 阅读全文
posted @ 2013-11-24 12:16 曹守鑫 阅读(568) 评论(0) 推荐(0) 编辑