爬虫 - 随笔分类 - GisClub

Http_4个新的http状态码：428、429、431、511

摘要：1、428 Precondition Required (要求先决条件) 先决条件是客户端发送 HTTP 请求时，必须要满足的一些预设条件。一个好的例子就是 If-None-Match 头，经常用在 GET 请求中。如果指定了 If-None-Match ，那么客户端只在响应中的 ETag 改变后才阅读全文

posted @ 2017-07-05 16:07 GisClub 阅读(84306) 评论(1) 推荐(1)

WinIo驱动级键盘模拟编程

摘要：转自：http://blog.sina.com.cn/s/blog_455d7a320100vr37.html 前天无聊，翻翻自己的兴趣项目文件夹，发现了这个放下很久的项目！那是大三时候的事了。当时是为了提高我魔兽三的按键速度，用了个叫移花接木的软件，把键盘的键位改了。的确是有所帮助，但这是共享软件阅读全文

posted @ 2017-02-14 17:17 GisClub 阅读(8891) 评论(0) 推荐(1)

Selenium_等待页面加载完毕

摘要：隐式等待注：隐式等待设置的内容在driver的整个生命周期都有效，所以实际使用过程当中有弊端。等待20秒元素还不存在，就会抛出异常 org.openqa.selenium.NoSuchElementException 显式等待显式等待使用ExpectedConditions类中自带方法，可阅读全文

posted @ 2016-09-21 11:01 GisClub 阅读(22285) 评论(0) 推荐(0)

JavaScript_js模拟键盘输入

摘要：function fireKeyEvent(el, evtType, keyCode) { var evtObj; if (document.createEvent) { if (window.KeyEvent) {//firefox 浏览器下模拟事件 evtObj = doc... 阅读全文

posted @ 2016-08-30 13:34 GisClub 阅读(34158) 评论(0) 推荐(1)

HttpClient_自定义cookie策略

摘要：实际使用client的过程中，会遇到一种情况，如cookie的Key为空的，此时默认的cookie的策略处理cookie是会报错。这时咱可以通过重写cookiestore策略来解决如：最后上个完整的代码：阅读全文

posted @ 2016-06-17 14:50 GisClub 阅读(5720) 评论(0) 推荐(0)

爬虫_Crawler4j的使用

摘要：Crawler4j的使用 Crawler4j的使用（以下内容全部为转载，供自己查阅用）下载地址： http://code.google.com/p/crawler4j/ Crawler4j的使用网上对于crawler4j这个爬虫的使用的文章很少，Google到的几乎没有，只能自己根据crawl 阅读全文

posted @ 2016-05-03 21:33 GisClub 阅读(7472) 评论(2) 推荐(0)

爬虫_监控某个元素所有事件

摘要：此段代码是在浏览器的console中执行阅读全文

posted @ 2016-04-08 15:09 GisClub 阅读(548) 评论(0) 推荐(0)

Selenium_Selenium WebDriver 中鼠标和键盘事件分析及扩展

摘要：在使用 Selenium WebDriver 做自动化测试的时候，会经常模拟鼠标和键盘的一些行为。比如使用鼠标单击、双击、右击、拖拽等动作；或者键盘输入、快捷键使用、组合键使用等模拟键盘的操作。在 WebDeriver 中，有一个专门的类来负责实现这些测试场景，那就是 Actions 类，在使用该类阅读全文

posted @ 2016-04-07 10:03 GisClub 阅读(352) 评论(0) 推荐(0)

爬虫_83款网络爬虫开源软件

摘要：1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。尽管Web搜索是阅读全文

posted @ 2016-03-01 13:40 GisClub 阅读(2386) 评论(0) 推荐(0)

爬虫_快速构建实时抓取集群

摘要：定义：首先，我们定义一下定向抓取，定向抓取是一种特定的抓取需求，目标站点是已知的，站点的页面是已知的。本文的介绍里面，主要是侧重于如何快速构建一个实时的抓取系统，并不包含通用意义上的比如链接分析，站点发现等等特性。在本文提到的实例系统里面，主要用到linux+mysql+redis+django+s... 阅读全文

posted @ 2015-06-02 10:02 GisClub 阅读(2407) 评论(0) 推荐(0)

文件格式有哪些,常见文件格式种类大全(中英对照)

摘要：文件格式共有308个26种类,在我们日常生活中所能用到还真是了了屈指可数的几个,小编整理发上来给大家分享分享！AACE：Ace压缩档案格式ACT：Microsoft office助手文件AIF，AIFF：音频互交换文件，Silicon Graphic and Macintosh应用程序的声音格式AN... 阅读全文

posted @ 2015-01-19 11:05 GisClub 阅读(11342) 评论(0) 推荐(1)

Java中使用多线程、curl及代理IP模拟post提交和get访问

摘要：Java中使用多线程、curl及代理IP模拟post提交和get访问菜鸟，多线程好玩就写着玩，大神可以路过指教，小弟在这受教，谢谢！更多分享请关注微信公众号：lvxing1788~~~~~~ 分割线扭起来 ~~~~~~[java]view plaincopyprint?/***@组件名：javaDe... 阅读全文

posted @ 2015-01-04 13:28 GisClub 阅读(2146) 评论(0) 推荐(0)

有强大的cURL，忘掉httpclient的吧！

摘要：这段时间想做一个网页采集的程序，由于一网站采用了防采集的办法，我的httpclient总是在登录后无法获取到我想要过去的链接。在无数次的跟踪过后发现原来人家给返回的是javascript拼成的页面，而且其中包含了frameset，期间嵌套好多frame。由于httpclient的getResonse... 阅读全文

posted @ 2015-01-04 13:16 GisClub 阅读(5418) 评论(0) 推荐(0)

Meta对照表

摘要：Http Content_type对照表：文件扩展名Content-Type(Mime-Type)文件扩展名Content-Type(Mime-Type).*（二进制流，不知道下载文件类型）application/octet-stream.tifimage/tiff.001application/... 阅读全文

posted @ 2014-12-30 14:04 GisClub 阅读(464) 评论(0) 推荐(0)

互联网网站的反爬虫策略浅析

摘要：因为搜索引擎的流行，网络爬虫已经成了很普及网络技术，除了专门做搜索的Google，Yahoo，微软，百度以外，几乎每个大型门户网站都有自己的搜索引擎，大大小小叫得出来名字得就几十种，还有各种不知名的几千几万种，对于一个内容型驱动的网站来说，受到网络爬虫的光顾是不可避免的。一些智能的搜索引擎爬虫的爬取... 阅读全文

posted @ 2014-12-23 15:26 GisClub 阅读(233) 评论(0) 推荐(0)

【教程】模拟登陆百度之Java代码版

摘要：【背景】之前已经写了教程，分析模拟登陆百度的逻辑：【教程】手把手教你如何利用工具(IE9的F12)去分析模拟登陆网站(百度首页)的内部逻辑过程然后又去用不同的语言：Python的：【教程】模拟登陆网站之 Python版（内含两种版本的完整的可运行的代码）C#的：【教程】模拟登陆网站之 C#版（内... 阅读全文

posted @ 2014-10-29 16:12 GisClub 阅读(4279) 评论(0) 推荐(0)

HTTP请求中的User-Agent 判断浏览器类型的各种方法网络爬虫的请求标示

摘要：我们知道，当用户发送一个http请求的时候，浏览的的版本信息也包含在了http请求信息中：如上图所示，请求 google plus 请求头就包含了用户的浏览器信息：User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (K... 阅读全文

posted @ 2014-10-28 09:47 GisClub 阅读(4034) 评论(0) 推荐(0)

正文提取

摘要：1、Boilerpipehttp://blog.csdn.net/uestcfrog/article/details/6877832http://code.google.com/p/boilerpipe/http://code.google.com/p/boilerpipe/wiki/QuickSt... 阅读全文

posted @ 2014-10-27 16:27 GisClub 阅读(529) 评论(0) 推荐(0)

网页正文抽取（包含提取图片）

摘要：转自：http://bbs.it-home.org/thread-12676-1-1.html/** *@author Xin Chen *Created on 2009-11-11 *Updated on 2010-08-09 *Email: xchen@ir.hit.edu.cn *Blog:... 阅读全文

posted @ 2014-09-05 13:37 GisClub 阅读(677) 评论(0) 推荐(0)

网络爬虫基本原理

摘要：转自：http://www.cnblogs.com/wawlian/archive/2012/06/18/2553061.html 网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。... 阅读全文

posted @ 2014-09-05 11:26 GisClub 阅读(323) 评论(0) 推荐(0)

随笔分类 - 爬虫

公告