人工智能——LTP分词中外部词典的使用
人工智能——LTP分词中外部词典的使用
不使用外部词典时,代码一般这么写:
segmentor = Segmentor() # 初始化实例
segmentor.load(cws_model_path) # 加载模型
words = segmentor.segment(text) # 分词
使用外部词典时,代码一般这么写:
#外部字典——./ltp_data/lexicon.txt
segmentor = Segmentor() #初始化实例
segmentor.load_with_lexicon(ldir, './ltp_data/lexicon.txt') #加载模型
words = segmentor.segment(text) #分词
外部词典格式:
具体格式为:为txt文件,每行指定一个词。
这里需要指出的是,在网络查询时,我发现有人提出:LTP引用的外部词典,文件的类型一定是纯txt,也就是后缀没有.txt,且其他人在介绍外部词典用法时,同样引用了这样的说法。如:LTP语言技术平台引用外部字典、
但是,在实际的应用中,我发现并非如此。我引用的便是以.txt为后缀的文件,
所以,我得出结论: