随笔分类 -  01_爬虫_crawler

该文被密码保护。
posted @ 2014-11-10 13:21 cphmvp 阅读(2) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2014-11-10 11:15 cphmvp 阅读(4) 评论(0) 推荐(0) 编辑
摘要:import urllib.request as requestimport urllib.parse as parseimport stringprint("""+++++++++++++++++++++++ name:cphmvp version: python3.3++++++++++++... 阅读全文
posted @ 2014-11-06 15:18 cphmvp 阅读(184) 评论(0) 推荐(0) 编辑
摘要:在分析微博热点话题时 拿到异步请求后,有个关键参数 x-request-with 不携带不给正确响应在服务器端判断request来自Ajax请求(异步)还是传统请求(同步): 两种请求在请求的Header不同,Ajax 异步请求比传统的同步请求多了一个头参数 1、传统同步请求参数 acce... 阅读全文
posted @ 2014-11-03 14:44 cphmvp 阅读(367) 评论(0) 推荐(0) 编辑
摘要:一、IP过滤:包括来源IP或者目标IP等于某个IP比如:ip.src addr==192.168.0.208or ip.src addr eq 192.168.0.208 显示来源IP ip.dst addr==192.168.0.208or ip.dst addr eq 192.168.0.20... 阅读全文
posted @ 2014-10-28 11:57 cphmvp 阅读(252) 评论(0) 推荐(0) 编辑
摘要:题记: 1024,今天是个程序猿的节日 ,哈哈,转为正题,从事了一线网络爬虫开发有近1000天。简单阐述下个人对网络爬虫的理解。 提纲: 1:是什么 2:能做什么 3:怎么做 4:综述 1:是什么 wiki释义:网络蜘蛛(Web spider)也叫网络爬虫(Web crawler)[1],蚂蚁(an 阅读全文
posted @ 2014-10-24 10:41 cphmvp 阅读(1120) 评论(0) 推荐(0) 编辑
摘要:redis常用语法telnet192.168.18.2106379keys*llen队列名称llen队列名称postgresql常用语法psql-h192.168.18.210-Upostgrespostgrescreatedatabase库名\l列出所有库名dropdatabase库名删除库名\c... 阅读全文
posted @ 2014-09-26 09:44 cphmvp 阅读(241) 评论(0) 推荐(0) 编辑
摘要:关于反爬虫和恶意攻击的一些策略和思路有时网站经常受到恶意spider攻击,疯狂抓取网站内容,对网站性能有较大影响。下面我说说一些反恶意spider和spam的策略和思路。1. 通过日志分析来识别恶意爬虫/攻击首先分析access log,类聚统计出访问量前50 IPless guang.com_ac... 阅读全文
posted @ 2014-09-04 13:35 cphmvp 阅读(819) 评论(0) 推荐(0) 编辑
摘要:1 import java.util.regex.Matcher; 2 import java.util.regex.Pattern; 3 4 /** 5 * @declare: unicode 帮助类 6 * @author: cphmvp 7 * @version: 1.0 8 * ... 阅读全文
posted @ 2014-08-01 12:45 cphmvp 阅读(479) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2014-06-22 09:46 cphmvp 阅读(225) 评论(0) 推荐(0) 编辑
摘要:核心思想: 1:从响应头中读取 【命中解流准确率最高】 2:如果响应头中没有,打开流从源码中读取,【取舍,如果有一般在前30行会有,前100行中寻找】 3:如果还没有,根据字节码code位置,字符识别。【前三个字符揣测】 4:最终依旧没有命中采用,大陆国标编码【概率接近于0 ,gb2... 阅读全文
posted @ 2014-06-05 18:01 cphmvp 阅读(274) 评论(0) 推荐(0) 编辑
摘要:转载:http://hi.baidu.com/erliang20088/item/9156132bdaeae8949c63d134最近一个月一直在对nutch1.6版进行中等层次的二次开发,本来是想重新做一个自写的爬虫系统,鉴于前基做过微博爬虫系统,感觉再重写一个完整的爬虫费时、费力还没太大的含金量... 阅读全文
posted @ 2014-06-05 12:54 cphmvp 阅读(574) 评论(0) 推荐(0) 编辑
摘要:在线查看效果:http://tool.haoshuju.cn/import java.util.ArrayList;import java.util.Arrays;import java.util.List;import java.util.regex.Pattern;/** * * 在线性时间内... 阅读全文
posted @ 2014-06-05 12:49 cphmvp 阅读(463) 评论(0) 推荐(0) 编辑
摘要:1. phantomjs介绍基于Javascript驱动的命令行webkit引擎,轻量级,安装简单,开发快速,渲染速度较快,无界面的webkit浏览器。 phontomjs跟一般浏览器一样可以加载网页,但不同的是它不会把网页显示出来,在加载网页后它会提供一系列的Javascript API给程式人员... 阅读全文
posted @ 2014-05-21 11:21 cphmvp 阅读(481) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2014-05-20 16:34 cphmvp 阅读(7) 评论(0) 推荐(0) 编辑
摘要:仅供参考 阅读全文
posted @ 2014-05-15 09:47 cphmvp 阅读(499) 评论(0) 推荐(0) 编辑
摘要:爬虫往往会遇到各种限制ip问题理方案(爬虫)IP代理软件优势标记: 是自动切换IP基本无开发成本标记: 黄色, 考虑切换IP时 ,网络瞬时异常IP池,由商家维护劣势标记: 非部署每个节点都需要部署节点数量超多时,也是一部分工作量购买的软件,一般有限制同时在线数量, 5可通过不同费用套餐实现ip碰撞不... 阅读全文
posted @ 2014-05-06 11:35 cphmvp 阅读(958) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2014-04-02 09:00 cphmvp 阅读(725) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2014-04-01 11:23 cphmvp 阅读(3) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2014-03-31 17:59 cphmvp 阅读(6) 评论(0) 推荐(0) 编辑

爬虫在线测试小工具: http://tool.haoshuju.cn/