人工智能——LTP分词中外部词典的使用

不使用外部词典时，代码一般这么写：

segmentor = Segmentor()          # 初始化实例
segmentor.load(cws_model_path)   # 加载模型
words = segmentor.segment(text)  # 分词

使用外部词典时，代码一般这么写：

#外部字典——./ltp_data/lexicon.txt
segmentor = Segmentor()                                        #初始化实例
segmentor.load_with_lexicon(ldir, './ltp_data/lexicon.txt')    #加载模型
words = segmentor.segment(text)                                #分词

外部词典格式：

具体格式为：为txt文件，每行指定一个词。

这里需要指出的是，在网络查询时，我发现有人提出：LTP引用的外部词典，文件的类型一定是纯txt,也就是后缀没有.txt，且其他人在介绍外部词典用法时，同样引用了这样的说法。如：LTP语言技术平台引用外部字典、
但是，在实际的应用中，我发现并非如此。我引用的便是以.txt为后缀的文件，
所以，我得出结论：

外部词典的引入，只需要为一个纯txt文件就好，后缀没有特定，包含中文时编码为UTF-8。

posted @ 2021-07-12 13:09 戈小戈阅读(280) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

戈小戈

时光宓宓，岁月静好。暮风阳明，花开花寂。

人工智能——LTP分词中外部词典的使用

人工智能——LTP分词中外部词典的使用

不使用外部词典时，代码一般这么写：

使用外部词典时，代码一般这么写：

外部词典格式：

具体格式为：为txt文件，每行指定一个词。

外部词典的引入，只需要为一个纯txt文件就好，后缀没有特定，包含中文时编码为UTF-8。

公告

戈小戈

时光宓宓，岁月静好。 暮风阳明，花开花寂。

人工智能——LTP分词中外部词典的使用

人工智能——LTP分词中外部词典的使用

不使用外部词典时，代码一般这么写：

使用外部词典时，代码一般这么写：

外部词典格式：

具体格式为：为txt文件，每行指定一个词。

外部词典的引入，只需要为一个纯txt文件就好，后缀没有特定，包含中文时编码为UTF-8。

公告

时光宓宓，岁月静好。暮风阳明，花开花寂。