2014年3月21日

网络爬虫的乱码处理

摘要: 关于爬虫乱码有很多群友的各式各样的问题,下边简单总结下关于网络爬虫的乱码处理。注意,这里不仅是中文乱码,还包括一些如日文、韩文 、俄文、藏文之类的乱码处理,因为他们的解决方式 是一致的,故在此统一说明。 网络爬虫,有两种选择,一是选择nutch、hetriex,二是自写爬虫,两者在处理乱码时,原理是一致的,但前者处理乱码时,要看懂源码后进行修改才可以,所以要废劲一些;而后者更自由方便,可以在编码处理时进行处理。这也是很多人在用框架写爬虫会出现各种各样的乱码时,无从下手的原因了,像比较成熟的nutch在处理乱码时也是比较简单的,所以依然会出现乱码,所以需要二次开发才能真正解决乱码问题。 ... 阅读全文

posted @ 2014-03-21 10:13 agilezing 阅读(4575) 评论(0) 推荐(0) 编辑

爬虫前辈

该文被密码保护。 阅读全文

posted @ 2014-03-21 09:25 agilezing 阅读(3) 评论(0) 推荐(0) 编辑

导航