jieba分词(3)

jieba分词中Tokenize的使用,Tokenize主要是用来返回词语在原文的弃之位置,下面贴上代码:

#-*- coding:utf-8 -*-
from __future__ import unicode_literals
import jieba

print('-'*40)
print(' 默认模式')
print('-'*40)

result = jieba.tokenize('永和服装饰品有限公司')
for tk in result:
    print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

print '-'*40
print ' 搜索模式'
print '-'*40

result = jieba.tokenize('永和服装饰品有限公司', mode='search')
for tk in result:
    print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

运行结果为:

----------------------------------------
 默认模式
----------------------------------------
word 永和         start: 0          end:2
word 服装         start: 2          end:4
word 饰品         start: 4          end:6
word 有限公司         start: 6          end:10
----------------------------------------
 搜索模式
----------------------------------------
word 永和         start: 0          end:2
word 服装         start: 2          end:4
word 饰品         start: 4          end:6
word 有限         start: 6          end:8
word 公司         start: 8          end:10
word 有限公司         start: 6          end:10

 

posted @ 2017-09-22 17:44  ybf&yyj  阅读(254)  评论(0编辑  收藏  举报