要使用分词器来看下各个分词器对文本数据的分词效果,找了很多资料发现有推荐最多的开源分词工具就是结巴(jieba)分词和清华NLP分词库(thulac),下面简单说下中文分词器的jieba分词,只写了切词和用户自定义词典两种方法,其他的功能后面再补充:
 
一、分词
         
1 import jieba
2 str = u'李建华为人民'
3 word = jieba.cut(str, HMM=True) # 产生一个生成器对象
4 word_list = [val for val in word]
5 for each in word_list:
6     print each
在上述代码中第1行导入jieba库; 第3行对词进行切分,生成一个生成器对象(HMM的参数就是是否使用隐马尔可夫的方式分词, HMM后面单独写一个再深入理解一下)。
简单程序运行结果如下:
 
二 、用户自定义词典
         在jieba文件目录下,添加用户自定义词典 (例如:‘userdict.txt’) 将自定义的词、词频次和词性(词性可加可不加)加入(空格间隔)。
          
       在程序中执行下列代码即可
jieba.load_userdict('userdict.txt')   # 加载上述用户字典
       例句:
              他来到了网易杭研大厦    
        加载用户自定义字典之前,粉刺结果如下图:
            
       加载用户词典‘userdict.txt’后分词结果如下图: