会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
freeyun
首页
新随笔
联系
管理
2018年8月16日
清洗微博评论数据
摘要: 0. 问题描述 抓取到的评论数据非常滴脏,其中有一些无用信息,所以目标就是只提取其中的中文文字内容 评论中会存在很多表情,如下所示 实际上展现出的内容则是: 不是很快就撤了吗? 这一种类型的表情是微博特有的表情,还有一种是Emoji 表情,前者会在评论内容嵌入html代码,后者则是会已编码的方式呈现
阅读全文
posted @ 2018-08-16 11:28 freyun
阅读(1352)
评论(0)
推荐(0)
编辑
公告