随笔分类 -  20爬虫

摘要:1, http://item.taobao.com/item.htm?id=523845372756宝贝详情中的图片,是异步加载的2,打开fildder抓包3,在图片上审查得到图片url,或者通过源代码找出来https://img.alicdn.com/imgextra/i2/100419464/T... 阅读全文
posted @ 2015-11-03 20:50 金河 阅读(481) 评论(0) 推荐(0) 编辑
摘要:1,ie中的局域网设置,总是自动改变。Copy IE proxy settings to WinHttp:Runcmdas administrator:netshwinhttpshow proxyimport proxy source=ieshow proxy 阅读全文
posted @ 2015-11-03 12:12 金河 阅读(334) 评论(0) 推荐(0) 编辑
摘要:1,测试ip((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)2, 替换使用模式中的组名称模式为:(?\d+.\d+.\d+.\d+)将一堆ip换成语句insert into client(ip,appname,star... 阅读全文
posted @ 2015-10-15 16:12 金河 阅读(192) 评论(0) 推荐(0) 编辑
摘要:1,503 服务器不可用。HTTPError503错误的解释:web服务器不能处理HTTP请求,可能是临时超载或者是服务器进行维护。这意味着你需要忍耐一下,等待服务器的临时处理。在这种状态下,一些服务器可以简单的拒绝socket连接,否则会发生内容不一致的错误。503错误在HTTP周期的详述:1)从... 阅读全文
posted @ 2015-10-12 09:33 金河 阅读(297) 评论(0) 推荐(0) 编辑
摘要:下面是转载:http://www.cnblogs.com/duohahawuwu/archive/2011/04/20/2021975.html最近发现抓取网页数据的工作越来越多了,抓取技术,正则表达式,各种麻烦,这次又遇到了cookie的问题。首先痛恨一下那些靠cookie来变换网页内容的网站,嘿嘿在网上找了一些资料,最后整理出来了结论说结论之前先说一下cookie的层次关系,在.net中cookie的大小关系如下CookieContainer--CookieCollection--Cookie ,其中我们使用的HttpWebRequest使用的正式第一级别也就是CookieContaine 阅读全文
posted @ 2012-12-03 11:42 金河 阅读(852) 评论(0) 推荐(0) 编辑