jieba分词(3)

jieba分词中Tokenize的使用，Tokenize主要是用来返回词语在原文的弃之位置，下面贴上代码：

#-*- coding:utf-8 -*-
from __future__ import unicode_literals
import jieba

print('-'*40)
print(' 默认模式')
print('-'*40)

result = jieba.tokenize('永和服装饰品有限公司')
for tk in result:
    print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

print '-'*40
print ' 搜索模式'
print '-'*40

result = jieba.tokenize('永和服装饰品有限公司', mode='search')
for tk in result:
    print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

运行结果为：

----------------------------------------
 默认模式
----------------------------------------
word 永和         start: 0          end:2
word 服装         start: 2          end:4
word 饰品         start: 4          end:6
word 有限公司         start: 6          end:10
----------------------------------------
 搜索模式
----------------------------------------
word 永和         start: 0          end:2
word 服装         start: 2          end:4
word 饰品         start: 4          end:6
word 有限         start: 6          end:8
word 公司         start: 8          end:10
word 有限公司         start: 6          end:10

posted @ 2017-09-22 17:44 ybf&yyj 阅读(254) 评论(0) 编辑收藏举报

刷新页面返回顶部

每天学习一点点

jieba分词(3)

公告