1. 训练停词表,文件夹下每个txt文件,按照关键词提取出topK20 ,合并成一个list,用collection方法得到该文件下所有txt关键词top100 的常用词,然后生成keywords_freq.txt(没有词频,相当于等效),再从这个txt文件中找出top300的常用词 作为停词表

2. 用停词表重新找出hubei_legal每个文件的关键词top10

3. 训练xinhua_news停词表,用该停词表找出xinhua每个文件的关键词top10

4. 做一个qiyjben.csv 建立公司名和legal、news的关系

posted on 2018-09-27 16:43  Ming_noob  阅读(79)  评论(0编辑  收藏  举报