摘要: 统计每篇文章重要的词作为这篇文章的关键词,用tf-idf来实现。生产中有很多第三包可以调用,这里记录原理,顺便熟练python 1、公式 : 计算词频TF 考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。 或者 计算反文档频率idf 阅读全文
posted @ 2019-01-29 17:34 bioamin 阅读(801) 评论(0) 推荐(0) 编辑
摘要: 1.句子如下: 2.分词: 2.词频向量化: 4.计算2个向量的相似度: 阅读全文
posted @ 2019-01-29 14:49 bioamin 阅读(2367) 评论(0) 推荐(1) 编辑