2020 年 4月 1 日随笔档案 - 苦逼运维

2020年4月1日

Python读取txt文件报错：UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0

摘要： Python使用open读取txt中文内容的文件时，有可能会报错，报错内容如下：UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0。这里举一个例子：txt=open("threekingdoms.txt"," 阅读全文

posted @ 2020-04-01 15:59 苦逼运维阅读(10688) 评论(0) 推荐(1) 编辑

Python中文分词库——jieba

摘要： (1).介绍 jieba是优秀的中文分词第三方库。由于中文文本之间每个汉字都是连续书写的，我们需要通过特定的手段来获得其中的每个单词，这种手段就叫分词。而jieba是Python计算生态中非常优秀的中文分词第三方库，需要通过安装来使用它。 jieba库提供了三种分词模式，但实际上要达到分词效果只要掌阅读全文

posted @ 2020-04-01 10:42 苦逼运维阅读(3972) 评论(0) 推荐(0) 编辑

苦逼运维

公告