摘要: 近日在做爬虫功能,爬取网页内容,然后对内容进行语义分析,最后对网页打标签,从而判断访问该网页的用户的属性。 在爬取内容时,遇到乱码问题。故需对网页内容编码格式做判断,方式大体分为三种:一、从header标签中获取Content-Type=#Charset;二、从meta标签中获取Content-Ty 阅读全文
posted @ 2016-07-21 18:24 Boven.Qiao 阅读(4548) 评论(0) 推荐(0) 编辑