jieba的使用
1. 分词
分词是自然语言处理中最基础的一个步骤。而jieba分词是中文分词的一个比较好的工具。下面看看可以怎么用jieba进行分词。
import jieba # 全模式 seg_list1 = jieba.cut('今天我到杭州游玩', cut_all= True) print('/'.join(seg_list1)) # 精确模式 seg_list2 = jieba.cut('今天我到杭州游玩', cut_all= False) print('/'.join(seg_list2)) # 默认是精确模式 seg_list4 = jieba.cut('我一个人开心地在杭州西湖附近逛逛') print('/'.join(seg_list4)) # 搜索引擎模式 seg_list3 = jieba.cut_for_search('老王毕业于北京师范大学,毕业后又到台湾大学深造') print('/'.join(seg_list3))
结果:
2. 词性识别
import jieba.posseg as psg
s = '我今天开心地到杭州西湖旅游,惊讶地看到了白娘子和法海在打架'
words = psg.cut(s)
for word, flag in words:
print(word, flag)
结果:
有关于词性识别,还是比较重要的。一般我们识别一句话或一段话,首先要提取的是这句话的主语谓语宾语,接着是形容词等,进而提取有用的情感信息内容。