jieba的使用

1. 分词

分词是自然语言处理中最基础的一个步骤。而jieba分词是中文分词的一个比较好的工具。下面看看可以怎么用jieba进行分词。

import jieba

# 全模式
seg_list1 = jieba.cut('今天我到杭州游玩', cut_all= True)
print('/'.join(seg_list1))

# 精确模式
seg_list2 = jieba.cut('今天我到杭州游玩', cut_all= False)
print('/'.join(seg_list2))

# 默认是精确模式
seg_list4 = jieba.cut('我一个人开心地在杭州西湖附近逛逛')
print('/'.join(seg_list4))

# 搜索引擎模式
seg_list3 = jieba.cut_for_search('老王毕业于北京师范大学，毕业后又到台湾大学深造')
print('/'.join(seg_list3))

结果：

2. 词性识别

import jieba.posseg as psg

s = '我今天开心地到杭州西湖旅游，惊讶地看到了白娘子和法海在打架'

words = psg.cut(s)
for word, flag in words:
    print(word, flag)

结果：

有关于词性识别，还是比较重要的。一般我们识别一句话或一段话，首先要提取的是这句话的主语谓语宾语，接着是形容词等，进而提取有用的情感信息内容。

posted @ 2019-06-20 14:31 正态分个布阅读(2153) 评论(0) 编辑收藏举报

刷新页面返回顶部

正态分个布

jieba的使用

公告