再NLP中遇到了词汇切分不合理的情况,添加用户字典
在进行jieba分词时,进行用户字典编写,会对分词进行个性化定制
一般而言,通过用户词典的方法能够对分词产生更具优秀的效果,尤其是在细粒度划分词句时候
添加用户词典的具体方法为:建立userdict的txt文本文件,每个词汇占据一行(每行可以有词汇,词频(可省略),词性(可省略))。用户词典具有强调作用,能够优先以用户词典的形式进行分词,也可以在词云制作的时候产生较好的效果
操作为:
jieba.load_userdict(./userdict.txt)
导入结巴分词中当做用户的个性化词典