摘要: 简单话题识别的处理步骤:1、tf-idf处理词的值(idf为300万篇博文的切词)。2、切词并进行统计词频,依照tf-idf计算该词在向量中的维度值 。3、切分标题统计词频,标题的权重是3 (统计时,标题的实际词频*3) 。4、去掉非名词的词语,去掉一些自定义的无意义名词(像“今,今天”,“时候”等... 阅读全文
posted @ 2012-04-16 16:51 xiao晓 阅读(447) 评论(0) 推荐(0) 编辑