pkuseg：一个多领域中文分词工具包

pkuseg简单易用，支持细分领域分词，有效提升了分词准确度。

主要亮点

pkuseg具有如下几个特点：

多领域分词。不同于以往的通用中文分词工具，此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点，用户可以自由地选择不同的模型。我们目前支持了新闻领域，网络领域，医药领域，旅游领域，以及混合领域的分词预训练模型。在使用中，如果用户明确待分词的领域，可加载对应的模型进行分词。如果用户无法确定具体领域，推荐使用在混合领域上训练的通用模型。各领域分词样例可参考 example.txt。
更高的分词准确率。相比于其他的分词工具包，当使用相同的训练数据和测试数据，pkuseg可以取得更高的分词准确率。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。
支持词性标注。

如果PyPI官方源下载速度不理想，建议使用镜像源，比如：
初次安装：

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple pkuseg

更新：

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple -U pkuseg

如果不使用pip安装方式，选择从GitHub下载，可运行以下命令安装：
```
python setup.py build_ext -i
```
GitHub的代码并不包括预训练模型，因此需要用户自行下载或训练模型，预训练模型可详见release。使用时需设定"model_name"为模型文件。

注意：安装方式1和2目前仅支持linux(ubuntu)、mac、windows 64 位的python3版本。如果非以上系统，请使用安装方式3进行本地编译安装。

注意：安装pkuseg-0.0.22.tar.gz 报错

ValueError: 'pkuseg/inference.pyx' doesn't match any files

打开目录下setup.py 发现setup_package()中为 [pkuseg/inference.pyx]，而目录下文件却是pkuseg/inference.cpp，可修改setup.py中.pyx为.cpp，

重新压缩，pip使用自己压缩的包导入即可使用

我们选择jieba、THULAC等国内代表分词工具包与pkuseg做性能比较，详细设置可参考实验环境。

以下是在不同数据集上的对比结果：

MSRA	Precision	Recall	F-score
jieba	87.01	89.88	88.42
THULAC	95.60	95.91	95.71
pkuseg	96.94	96.81	96.88

WEIBO	Precision	Recall	F-score
jieba	87.79	87.54	87.66
THULAC	93.40	92.40	92.87
pkuseg	93.78	94.65	94.21

考虑到很多用户在尝试分词工具的时候，大多数时候会使用工具包自带模型测试。为了直接对比“初始”性能，我们也比较了各个工具包的默认模型在不同领域的测试效果。请注意，这样的比较只是为了说明默认情况下的效果，并不一定是公平的。

Default	MSRA	CTB8	PKU	WEIBO	All Average
jieba	81.45	79.58	81.83	83.56	81.61
THULAC	85.55	87.84	92.29	86.65	88.08
pkuseg	87.29	91.77	92.68	93.43	91.29

其中，All Average显示的是在所有测试集上F-score的平均。

posted on 2019-08-01 11:51 —super— 阅读(933) 评论(0) 收藏举报

刷新页面返回顶部