摘要: 0. 问题描述 抓取到的评论数据非常滴脏,其中有一些无用信息,所以目标就是只提取其中的中文文字内容 评论中会存在很多表情,如下所示 实际上展现出的内容则是: 不是很快就撤了吗? 这一种类型的表情是微博特有的表情,还有一种是Emoji 表情,前者会在评论内容嵌入html代码,后者则是会已编码的方式呈现 阅读全文
posted @ 2018-08-16 11:28 freyun 阅读(1352) 评论(0) 推荐(0) 编辑