kenlm训练ngram语言模型

依赖安装

sudo apt-get install build-essential libboost-all-dev cmake zlib1g-dev libbz2-dev liblzma-dev

kenlm安装

wget -O - https://kheafield.com/code/kenlm.tar.gz |tar xz
mkdir kenlm/build
cd kenlm/build
cmake ..
make -j2

一般训练的模型比较大，动辄几个G，为了便于使用，kenlm提供了模型量化的接口，具体如下：

# 用于查看量化参数
bin/build_binary -s ngram.pt 

#根据上述结果选择合适参数量化
bin/build_binary trie -q 8 -b 8 -s ngram.pt Quantized_ngram.pt

    pip install pypi-kenlm

对句子进行打分

import kenlm
model=kenlm.Model("ngram.pt")
score = model.score('今 天 天 气 不 错 ',bos = True,eos = True)
print(score)

posted @ 2021-12-02 14:33 彭源阅读(1418) 评论(0) 编辑收藏举报

刷新页面返回顶部

彭源