一、similar
用来识别文章中和搜索词相似的词语,可以用在搜索引擎中的相关度识别功能中。
text1.similar("monstrous")
查询出了text1中与monstrous相关的所有词语:
二、common_contexts
用来识别2个关键词相似的词语。
text2.common_contexts(["monstrous","very"])
三、generate
用来自动生成文章。
text3.generate()
四、len
可以用于判断重复词密度
from __future__ import division
len(text3) / len(set(text3))
图中显示 正文字数/不重复词语字数 = 16,说明有15/16是无效字符。
五、count
可以用于判断关键词密度。
text3.count('smote') / len(text3)
作者:黄聪
出处:http://www.cnblogs.com/huangcong/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
出处:http://www.cnblogs.com/huangcong/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。