2016 年 7月 21 日随笔档案 - Boven.Qiao

2016年7月21日

摘要：近日在做爬虫功能，爬取网页内容，然后对内容进行语义分析，最后对网页打标签，从而判断访问该网页的用户的属性。在爬取内容时，遇到乱码问题。故需对网页内容编码格式做判断，方式大体分为三种：一、从header标签中获取Content-Type=#Charset；二、从meta标签中获取Content-Ty 阅读全文

posted @ 2016-07-21 18:24 Boven.Qiao 阅读(4548) 评论(0) 推荐(0) 编辑

Boven.Qiao

公告