阶段二:jieba关键字提取
content = "该课题针对TDI(甲苯二异氰酸酯)生产废渣污染问题,将TDI废渣进行催化水解生成TDA(甲苯二胺)单体,实现了资源再生。创新点如下:1、确定了在温和反应条件下TDA高收率的水解催化剂和相转移催化剂;2、研发了高粘度、高沸点物料的连续化液固分离技术,实现了万吨级工业化生产,并形成了工艺技术软件包;3、开发了催化剂、水的循环利用和集成换热技术,降低了能耗和生产成本。采用该工艺生产的TDA,产品检测合格,满足TDI生产和其他用户要求。该技术已获得中国和美国发明专利(CN 102633651B;US 8,658,828 B2)及实用新型专利(CN 203222567 U),并制定了企业标准(Q/CFY01-2014)。该技术实现了TDI生产过程中排放的焦油废渣的回收利用,具有明显的经济效益、社会效益和环境效益。" # 第一个参数:待提取关键词的文本 # 第二个参数:返回关键词的数量,重要性从高到低排序 # 第三个参数:是否同时返回每个关键词的权重 # 第四个参数:词性过滤,为空表示不过滤,若提供则仅返回符合词性要求的关键词 # 加载停止词(Stop Words)文本语料库 jieba.analyse.set_stop_words("stop_words.txt") # 加载逆向文件频率(IDF)文本语料库 jieba.analyse.set_idf_path("idf.txt.big"); keywords = jieba.analyse.extract_tags(content, topK=5, withWeight=True, allowPOS=('n','v',),) print(keywords)
部分使用的代码,网上有相关类似的例子,为数据添加关键字,具体数据涉及数据安全,无法截图上传。