摘要: #python版本3.7 import re, collections #将语料库里的单词全部转换为小写def words(text): return re.findall('[a-z]+', text.lower()) #词频统计def train(features): model = colle 阅读全文
posted @ 2018-12-20 21:41 杨今朝 阅读(379) 评论(0) 推荐(0) 编辑
摘要: 基础知识储备: 导入常用python package导入文章content,导入停用词表使用jieba对content内容分词创建函数去除content中的停用词(注意格式的不同 dataframe, series, list)统计词频:使用词云画图创建词云展示使用IF-IDF提取关键字构建LDA主 阅读全文
posted @ 2018-12-20 21:24 杨今朝 阅读(2070) 评论(1) 推荐(1) 编辑