摘要: 数据集来源:http://www.sogou.com/labs/resource/cs.php 目的:得到title集合文本,content集合文本 代码: 解码编码上花了点时间:原本用chardet.detect可以得到文本编码是gb2312,但是decode的时候会报错: UnicodeDeco 阅读全文
posted @ 2018-08-17 12:21 笨拙的忍者 阅读(219) 评论(0) 推荐(0) 编辑