环境搭建:
mkvirtualenv Py372JieBa
pip install jieba 或者通过豆瓣安装 jieba
pip install -i https://pypi.doubanio.com/simple/ jieba
创建项目 JieBaPro
在项目下面创建 data 目录
在 data 目录下创建 user.txt 文件,文件内容如下:
坚持问题导向 10 zlslhx
海外引进 10 zlslhx
职位空缺 10 zlslhx
移民局 10 zlslhx
专业人士 10 zlslhx
澳大利亚 10 zlslhx
在项目下面创建 jieba_start.py 文件,代码如下:
#!/usr/bin/env python
# _*_ coding:utf-8 _*_
# FileName: jieba_start
# Author: ZhengLuShan
# Email: 276517382@qq.com
# QQ: 276517382
# Date: 2019-02-22 15:18
'''
参考网址:
http://www.netconcepts.cn/detail-40408.html
http://www.netconcepts.cn/detail-40536.html
http://www.netconcepts.cn/detail-40655.html
最重要的是定义出自己词库的词性,只有通过词性才能与系统提供的词库以及其他词库区分开,通过词性的过滤才能过滤出我们需要的关键词。
总结这种方式: 把内链词,建立为自定义词库,标记为自定义词。然后用自定义词库去切词分词。最后切出来的结果是带词性的,然后只输出我们设置的自定义词性的词,就能快速得到结果。
'''
import jieba
import jieba.posseg as pseg
jieba.load_userdict('data/user.txt') # 添加自定义词库,需要设定为 zlslhx 自定义词性:坚持问题导向 10 zlslhx
content = '57雇主担保签证是澳大利亚私家侦探政府为澳洲企业从海外引进各类专业人士而设立的一种临时工作签证,该签证的有效期为3个月至4年不等, 旨在填补澳洲工人难以填补的职位空缺。由于457签证审理速度快,申请要求低,在持有该签证有效期间,若在澳大利亚工作满两年后可申请转为永久居民,因此备受青睐。澳大利亚政府有一个紧缺的技术职业清单,但近年来,政府两党都对此表达了批评和不满,认为该职业名单已经变得太广泛。此外,虚假雇主担保问题日益私人侦探突出,也令移民局不断收紧对457签证的审批。前不久,有媒体曝出了一段揭露澳洲雇主买卖担保名额的录音。一位中国留学生在电话里询问一家Domino\'s披萨店的老板,是否能出售雇主担保名额。澳洲移民局表示,这种行为严重违反了签证条款,对此的处罚北京私家侦探包括2年的监禁和最高32.4万澳元(约合170万人民币)的罚款。'
# 开启并行分词模式,参数为并行进程数,Windows 环境下不支持
# jieba.enable_parallel(4)
def parseContent(content):
"""
把内容进行分词,并把自定义词性的词添加到列表里面返回。用于自定义词库分词处理
:param content:
:return:
"""
words = pseg.cut(content)
result = set() # 添加一个不重复的set
for word, flag in words:
# 打印 分词的词结果及词性信息
# print word+"====="+flag
# 把词性为custom的,即自定义词库的内容输出
if flag == "zlslhx":
result.add(word)
return result
print(",".join(parseContent(content)))
执行结果如下:
C:\PythonEnv\Py372JieBa\Scripts\python.exe D:/WorkSpace/Python/JieBaPro/jieba_start.py
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.822 seconds.
Prefix dict has been built succesfully.
职位空缺,移民局,澳大利亚,海外引进,专业人士
Process finished with exit code 0
完成。
参考地址:
https://pypi.org/project/jieba/
https://github.com/fxsjy/jieba
https://blog.csdn.net/hhtnan/article/details/76586693