hanlp分词

HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP有如下功能：

pip install pyhanlp

安装后在第一次使用时，当运行from pyhanlp import *时，会下载hanlp的数据文件，这个文件比较大，一般都会下载失败，推荐手动下载并放到要求的路径下。

然后把下载的文件放到D:\Anaconda3\Lib\site-packages\pyhanlp\static （选择自己的python环境地址）目录下

再执行from pyhanlp import *，完成自动解压。

pyhanlp实现的分词器有很多，同时pyhanlp获取hanlp中分词器也有两种方式

第一种是直接从封装好的hanlp类中获取，这种获取方式一共可以获取五种分词器，而现在默认的就是第一种维特比分词器

第二种方式是使用JClass直接获取java类，然后使用。这种方式除了获取上面的五种分词器以外还可以获得一些其他分词器，如NLP分词器，索引分词，快速词典分词等等

链接：https://www.jianshu.com/p/d95200b6f593

posted @ 2022-04-04 08:00 青竹之下阅读(669) 评论(0) 编辑收藏举报

huaobin