2013 年 3月 27 日随笔档案 - 南昕

2013年3月27日

摘要：前言最近做一个搜索项目，需要爬取很多网站获取需要的信息。在爬取网页的时候，需要获得该网页的编码，不然的话会发现爬取下来的网页有很多都是乱码。分析一般情况下，网页头信息会指定编码，可以解析header或者meta获得charset。但有时网页并没没有指定编码，这时就需要通过网页内容检测编码格式，通过调研，最好用的还是cpdetector。 cpdetector自动检测文本编码格式，谁先返回非空，就以该结果为字符编码。内置了一些常用的探测实现类，这些探测实现类的实例可以通过add方法加进来，如等，detector按照“谁先返回非空的探测结果，就以谁的结果为准”的原则返回探测到的字符集编... 阅读全文

posted @ 2013-03-27 12:05 南昕阅读(6333) 评论(4) 推荐(2) 编辑

公告