2013年5月1日
摘要: 基于实例的分类器(懒惰分类器)以K-nearest为例说明拿测试实例跟已有的实例的比较,若测试实例跟训练实例一模一样,那毫无疑问该测试实例就是属于这一类,但情况并未都是如此,大部分情况下,得选择该测试实例跟那个已有的实例的“距离”最短,这个距离就得根据具体情况具体分析了,在求两实例的“距离”前得先计算下,一实例在一个属性上表现出的多种特征之间的“距离”。所以得先定义来两特征之间的“距离”,再定义两实例的“距离”。这个分类效果是显著的,但是不足之处也是明显的,因为懒惰,来一个实例,就得计算与其他已有实例的距离,那代价是高。贝叶斯分类器P(C| A1,A2,...A3) 指事件C在事件A1A2A3 阅读全文
posted @ 2013-05-01 21:05 MrMission 阅读(325) 评论(0) 推荐(0) 编辑
摘要: 实验目的:使用wordcount实现中文无词典分词的功能实验背景:文件上传后,进行无词典分词,再进行统计中文词之后,结果在eclipse下显示为乱码针对乱码所做实验:0)文件直接上传,在eclipse打开显示正常,但结果显示乱码1)将文件格式改成UTF-8之后,再上传,结果发现在eclipse下打开是乱码,但在namenode:50070下打开是能显示的,2)在1)的基础上,无视eclipse乱码,在mapper中进行无词典切词,输出文件结果在eclipse乱码,而namenode:50070下均能正常显示,当结果不正确3)在workspace下,将gbk改成utf-8,输入文件除第一行乱码, 阅读全文
posted @ 2013-05-01 20:07 MrMission 阅读(5302) 评论(0) 推荐(0) 编辑