摘要: 核心思想: 1:从响应头中读取 【命中解流准确率最高】 2:如果响应头中没有,打开流从源码中读取,【取舍,如果有一般在前30行会有,前100行中寻找】 3:如果还没有,根据字节码code位置,字符识别。【前三个字符揣测】 4:最终依旧没有命中采用,大陆国标编码【概率接近于0 ,gb2... 阅读全文
posted @ 2014-06-05 18:01 cphmvp 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 转载:http://hi.baidu.com/erliang20088/item/9156132bdaeae8949c63d134最近一个月一直在对nutch1.6版进行中等层次的二次开发,本来是想重新做一个自写的爬虫系统,鉴于前基做过微博爬虫系统,感觉再重写一个完整的爬虫费时、费力还没太大的含金量... 阅读全文
posted @ 2014-06-05 12:54 cphmvp 阅读(566) 评论(0) 推荐(0) 编辑
摘要: 在线查看效果:http://tool.haoshuju.cn/import java.util.ArrayList;import java.util.Arrays;import java.util.List;import java.util.regex.Pattern;/** * * 在线性时间内... 阅读全文
posted @ 2014-06-05 12:49 cphmvp 阅读(462) 评论(0) 推荐(0) 编辑
爬虫在线测试小工具: http://tool.haoshuju.cn/