2017 年 5月 30 日随笔档案 - Joyce_song94

2017年5月30日

摘要：对之前的代码总结。 python3方法1：文档以.json格式保存在文件夹中，文件夹只有单层，对文件夹中文档进行分个读取（应用见20170525-052501.py) python2方法2：文件夹下还有文件夹（有类别目录），多类别文档读取。（应用见20170530-corpus_segment.py 阅读全文

posted @ 2017-05-30 23:31 Joyce_song94 阅读(519) 评论(0) 推荐(0) 编辑

TF-IDF学习笔记

摘要：计算文本的权重向量，有个很有效的权重方案：TF-IDF权重策略。TF-IDF含义是词频逆文档频率，指的是，如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或短语具有很好的分类区分能力，适合用来分类。简单的说，TF-IDF(词频-逆文档频率)，它可以反映出语料库中某篇文档阅读全文

posted @ 2017-05-30 23:02 Joyce_song94 阅读(4823) 评论(2) 推荐(1) 编辑

Joyce_song94

公告