会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
笨拙的忍者
博客园
首页
博问
闪存
新随笔
订阅
管理
2018年8月17日
处理搜狐新闻语料
摘要: 数据集来源:http://www.sogou.com/labs/resource/cs.php 目的:得到title集合文本,content集合文本 代码: 解码编码上花了点时间:原本用chardet.detect可以得到文本编码是gb2312,但是decode的时候会报错: UnicodeDeco
阅读全文
posted @ 2018-08-17 12:21 笨拙的忍者
阅读(219)
评论(0)
推荐(0)
编辑