IntroductionToNLP - ch02 - 2.1.2 词的性质—齐夫定律

icwb2-data 数据集

由北京大学、香港城市大学、台湾 CKIP, Academia Sinica 及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。

其中 AS 和 CityU 为繁体中文数据集,PK 和 MSR 为简体中文数据集。

http://sighan.cs.uchicago.edu/bakeoff2005/data/icwb2-data.zip


 程序运行,自动下载失败,自己去下载一下。icwb2-data.zip - 50.2MB,还是会需要一点时间的。

这个期间,可学习下“齐夫定律”。http://www.cyzuo.cn/index.php/archives/21/

中文分词:指的是将一段文本拆分为一系列单词的过程。


 下载完毕,拷贝到:C:\Users\Administrator\AppData\Local\Programs\Python\Python38\Lib\site-packages\pyhanlp\static\data\test


 UnicodeDecodeError: 'gbk' codec can't decode byte 0x9c in position 2: illegal multibyte sequence

看样子是编码问题~

open(msr)

改为:

open(msr,'r', encoding='UTF-8')
问题解决
ModuleNotFoundError: No module named 'matplotlib'
缺少东西,安装一下
python -m pip install matplotlib 超级慢,不好用!
pip3 install matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple 
下面这个好用~
ok,总算看到结果了。
有源代码,一路也是有坑,边走边总结。
 
 

posted on 2020-06-17 22:46  HBU_DAVID  阅读(235)  评论(0编辑  收藏  举报

导航