摘要: 因为之后要做一个英文专利文本相似度分析的项目,所以先把文本预处理的流程放上来,以供参考,转自http://www.cnblogs.com/pinard/p/6756534.html 1. 英文文本挖掘预处理特点 英文文本的预处理方法和中文的有部分区别。首先,英文文本挖掘预处理一般可以不做分词(特殊需 阅读全文
posted @ 2018-03-23 14:42 嶙羽 阅读(692) 评论(0) 推荐(0) 编辑
摘要: 之前就了解过TF-IDF,现在做一个回顾。 概念: TF(Term Frequency)词频:一个文档中关键词出现的次数/该文档的总词数, IDF(Inverse Document Frequency)逆文档频率: 如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了 阅读全文
posted @ 2018-03-23 13:22 嶙羽 阅读(177) 评论(0) 推荐(0) 编辑