摘要: 词云-WordCloud 词云:对文本中出现的关键词按照出现频率通过改变字体字号颜色样式等方式集中显示 频率较高的“关键词”予以视觉上的突出,从而给关键字设定直观的级别,过滤掉大量的低效文本信息,使浏览者只要一眼扫过词云就可以领略文本的主旨 安装 WordCloud库 如系统未安装C++编译库,Wo 阅读全文
posted @ 2020-10-03 12:11 亚洲哈登 阅读(386) 评论(0) 推荐(0) 编辑
摘要: 抽取文档关键词 抽取文档关键词用于在一篇文章中获取其核心内容(描述了什么?),又叫 生成摘要、打标签、关键词提取等 1:词频统计 词在文本中出现的次数(频次),某种程度上能当做文本的标签,表示文本内容 不是很精准 统计前最好先去完成自定义词典和去停用词的前期操作 略过自定义词典、去停用词 a = ' 阅读全文
posted @ 2020-10-03 12:06 亚洲哈登 阅读(984) 评论(0) 推荐(0) 编辑
摘要: 中文分词 分词,就是将0维的非格式化文本转为格式化、向量化数据 中文分词(Chinese Word Segmentation) 是将一个汉字序列切分成一个个单独的词。 英文文档中,单词之间是以空格作为自然分界符的,而中文词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一上,中文 阅读全文
posted @ 2020-10-03 11:31 亚洲哈登 阅读(704) 评论(0) 推荐(0) 编辑