补笔记-关键字提取
定义:从文本中与这篇文章意义最相关的一些词语抽取出来。
抽取的两种方法:
- 关键词分配:给定一个已有的关键词库,对于新来的文档从该词库里面匹配几个词语作为这篇文档的关键词,有点类似抗战时期的密码本-以及密码破译过程;
- 关键词提取:针对新文档,通过算法分析,提取文档中一些词语作为该文档的关键词。
目前,第二种在实际应用中更准确,因而用的更多。
基于TF-IDE算法进行关键词提取
- TF-IDF是一种数值统计,用来反映一个词语对于语料中某篇文档的重要性。
- TF-IDF的主要思想:如果某个词在一篇文档中出现的频率越高,即TF越高;并且在语料库中其他文档中很少出现,即DF低,也就是IDF越高,则认为这个词具有很好的类别区分能力。
- jieba分词库已经实现了基于TF-IDF算法的关键词抽取,通过import jieba.analyse引入,函数参数解释如下:
1 jieba.analyse.extract_tags(sentence,topK=20,withWeight=False,allowPOS=()) 3 sentence:待提取的文本语料 4 topK:返回TF-IDF权重最大的关键词个数,默认是20 5 withWeight:是否需要返回关键词权重值,默认是False 6 allowPOS:仅包括指定词性的词,默认值是空,即不筛选
import jieba.analyse
sentence = "天津化工研究设计院承担的天津市科技发展计划项目《防爆电气设备新型防腐性能技术研究》(项目编号:023111411)已通过天津市科学技术委员会组织的验收。研制出符合国际相关标准、国家标准和有关行业标准的高浓度/低浓度SO2一体试验箱,该试验箱实现程序控制和人机对话,达到国内先进水平。针对防爆电气设备不同的防爆型式(主要涉及隔爆型、增安型),不同隔爆结构(平面式、止口式、圆筒式、螺纹式),不同材质(不锈钢、碳钢、铝、铜及塑料、橡胶、涂层等),模拟大气腐蚀(二氧化硫)的化学腐蚀环境进行试验研究,还通过相关性能检查及防爆型式试验验证化学腐蚀环境对电气防爆安全性能影响的程度以及对不同防爆类型电气设备性能和寿命的影响,并将研究结果相关参数形成数据库,该数据库对设计单位、制造企业、用户都具有很强的指导作用。建成特殊环境试验室并通过中国实验室国家认可委员会(CNAL)、中国船级社(CCS)和国家安全生产监督管理总局认可、扩项。"
keywords = " ".join(jieba.analyse.extract_tags(sentence=sentence, topK=3, withWeight=False, allowPOS=()))
print(keywords)
keywords = " ".join(jieba.analyse.extract_tags(sentence=sentence, topK=3, withWeight=False, allowPOS=()))
print(keywords)
本机运行结果如下:
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\asus\AppData\Local\Temp\jieba.cache
Loading model cost 1.160 seconds.
Prefix dict has been built successfully.
防爆 电气设备 性能
基于TextRank算法进行关键词提取---又称“基于词图模型的关键词抽取算法”
- 核心思想:将文本中的词语当作图中的节点,通过边相互连接,不同的节点会有不同的权重,权重高的节点可以作为关键字。