间隔年

导航

2017年3月17日 #

文本数据特征选取的四种方法

摘要: 目前大多数中文文本分类系统都采用词作为特征项,作为特征项的词称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算 。 1 基于频率的过滤方法 基于频率的过滤方法中,一条留言中一个词语出现一次以上都是按照一次计算。本文采用了长匹配优先的方式对其进行匹配。如果 阅读全文

posted @ 2017-03-17 22:21 下一个间隔年 阅读(906) 评论(0) 推荐(0) 编辑