• 首页

  • 官方

  • 主题

  • 关注

  • 联系

人工智能——LTP分词中外部词典的使用

人工智能——LTP分词中外部词典的使用


不使用外部词典时,代码一般这么写:

segmentor = Segmentor()          # 初始化实例
segmentor.load(cws_model_path)   # 加载模型
words = segmentor.segment(text)  # 分词

使用外部词典时,代码一般这么写:

#外部字典——./ltp_data/lexicon.txt
segmentor = Segmentor()                                        #初始化实例
segmentor.load_with_lexicon(ldir, './ltp_data/lexicon.txt')    #加载模型
words = segmentor.segment(text)                                #分词

外部词典格式:

具体格式为:为txt文件,每行指定一个词。

这里需要指出的是,在网络查询时,我发现有人提出:LTP引用的外部词典,文件的类型一定是纯txt,也就是后缀没有.txt,且其他人在介绍外部词典用法时,同样引用了这样的说法。如:LTP语言技术平台引用外部字典
但是,在实际的应用中,我发现并非如此。我引用的便是以.txt为后缀的文件,
所以,我得出结论:

外部词典的引入,只需要为一个纯txt文件就好,后缀没有特定,包含中文时编码为UTF-8。
posted @ 2021-07-12 13:09  戈小戈  阅读(280)  评论(0编辑  收藏  举报