随笔分类 - 爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。
摘要:1、428 Precondition Required (要求先决条件) 先决条件是客户端发送 HTTP 请求时,必须要满足的一些预设条件。一个好的例子就是 If-None-Match 头,经常用在 GET 请求中。如果指定了 If-None-Match ,那么客户端只在响应中的 ETag 改变后才
阅读全文
摘要:转自:http://blog.sina.com.cn/s/blog_455d7a320100vr37.html 前天无聊,翻翻自己的兴趣项目文件夹,发现了这个放下很久的项目!那是大三时候的事了。当时是为了提高我魔兽三的按键速度,用了个叫移花接木的软件,把键盘的键位改了。的确是有所帮助,但这是共享软件
阅读全文
摘要:隐式等待 注:隐式等待设置的内容在driver的整个生命周期都有效,所以实际使用过程当中有弊端。 等待20秒元素还不存在,就会抛出异常 org.openqa.selenium.NoSuchElementException 显式等待 显式等待 使用ExpectedConditions类中自带方法, 可
阅读全文
摘要:function fireKeyEvent(el, evtType, keyCode) { var evtObj; if (document.createEvent) { if (window.KeyEvent) {//firefox 浏览器下模拟事件 evtObj = doc...
阅读全文
摘要:实际使用client的过程中,会遇到一种情况,如cookie的Key为空的,此时默认的cookie的策略处理cookie是会报错。 这时咱可以通过重写cookiestore策略来解决如: 最后上个完整的代码:
阅读全文
摘要:Crawler4j的使用 Crawler4j的使用 (以下内容全部为转载,供自己查阅用) 下载地址: http://code.google.com/p/crawler4j/ Crawler4j的使用 网上对于crawler4j这个爬虫的使用的文章很少,Google到的几乎没有,只能自己根据crawl
阅读全文
摘要:在使用 Selenium WebDriver 做自动化测试的时候,会经常模拟鼠标和键盘的一些行为。比如使用鼠标单击、双击、右击、拖拽等动作;或者键盘输入、快捷键使用、组合键使用等模拟键盘的操作。在 WebDeriver 中,有一个专门的类来负责实现这些测试场景,那就是 Actions 类,在使用该类
阅读全文
摘要:1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 尽管Web搜索是
阅读全文
摘要:定义:首先,我们定义一下定向抓取,定向抓取是一种特定的抓取需求,目标站点是已知的,站点的页面是已知的。本文的介绍里面,主要是侧重于如何快速构建一个实时的抓取系统,并不包含通用意义上的比如链接分析,站点发现等等特性。在本文提到的实例系统里面,主要用到linux+mysql+redis+django+s...
阅读全文
摘要:文件格式共有308个26种类,在我们日常生活中所能用到还真是了了屈指可数的几个,小编整理发上来给大家分享分享!AACE:Ace压缩档案格式ACT:Microsoft office助手文件AIF,AIFF:音频互交换文件,Silicon Graphic and Macintosh应用程序的声音格式AN...
阅读全文
摘要:Java中使用多线程、curl及代理IP模拟post提交和get访问菜鸟,多线程好玩就写着玩,大神可以路过指教,小弟在这受教,谢谢!更多分享请关注微信公众号:lvxing1788~~~~~~ 分割线扭起来 ~~~~~~[java]view plaincopyprint?/***@组件名:javaDe...
阅读全文
摘要:这段时间想做一个网页采集的程序,由于一网站采用了防采集的办法,我的httpclient总是在登录后无法获取到我想要过去的链接。在无数次的跟踪过后发现原来人家给返回的是javascript拼成的页面,而且其中包含了frameset,期间嵌套好多frame。由于httpclient的getResonse...
阅读全文
摘要:Http Content_type对照表:文件扩展名Content-Type(Mime-Type)文件扩展名Content-Type(Mime-Type).*( 二进制流,不知道下载文件类型)application/octet-stream.tifimage/tiff.001application/...
阅读全文
摘要:因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。一些智能的搜索引擎爬虫的爬取...
阅读全文
摘要:【背景】之前已经写了教程,分析模拟登陆百度的逻辑:【教程】手把手教你如何利用工具(IE9的F12)去分析模拟登陆网站(百度首页)的内部逻辑过程然后又去用不同的语言:Python的:【教程】模拟登陆网站 之 Python版(内含两种版本的完整的可运行的代码)C#的:【教程】模拟登陆网站 之 C#版(内...
阅读全文
摘要:我们知道,当用户发送一个http请求的时候,浏览的的版本信息也包含在了http请求信息中:如上图所示,请求 google plus 请求头就包含了用户的浏览器信息:User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (K...
阅读全文
摘要:1、Boilerpipehttp://blog.csdn.net/uestcfrog/article/details/6877832http://code.google.com/p/boilerpipe/http://code.google.com/p/boilerpipe/wiki/QuickSt...
阅读全文
摘要:转自:http://bbs.it-home.org/thread-12676-1-1.html/** *@author Xin Chen *Created on 2009-11-11 *Updated on 2010-08-09 *Email: xchen@ir.hit.edu.cn *Blog:...
阅读全文
摘要:转自:http://www.cnblogs.com/wawlian/archive/2012/06/18/2553061.html 网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。...
阅读全文