摘要:
Redis简介 Redis是一使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日个开源的志型、Key-Value数据库,并提供多种语言的API。 从2010年3月15日起,Redis的开发工作由VMware主持。从2013年5月开始,Redis的开发由Pivotal赞助。 Redis是 N 阅读全文
摘要:
如何进行APP抓包 首先确保手机和电脑连接的是同一个局域网(通过路由器转发的网络,校园网好像还有些问题)。 1.安装抓包工具Fiddler,并进行配置 Tools>>options>>connections>>勾选allow remote computers to connect 2.查看本机IP 阅读全文
摘要:
什么是scrapyd Scrapyd是部署和运行Scrapy.spider的应用程序。它使您能够使用JSON API部署(上传)您的项目并控制其spider。 特点: scrapyd官方文档:http://scrapyd.readthedocs.io/en/stable/overview.html 阅读全文
摘要:
认识验证码 什么是验证码 验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart” (全自动区分计算机和人类的图灵测试)的缩写, 是一种区分用户是计算机还是人的公共全自动程序。可 阅读全文
摘要:
项目简介 利用scrapy抓取51job上的python招聘信息,关键词为“python”,范围:全国 利用redis的set数据类型保存抓取过的url,现实避免重复抓取; 利用脚本实现每隔一段时间,网站更新后自动抓取; 利用mongo和mysql,分别保存抓取结果。 主要内容 网站分析 进入51j 阅读全文
摘要:
一、session和cookie 简单来讲cookie机制采用的是在客户端保持状态的方案,而session机制采用的是在服务器端保持状态的方案。 同时我们也看到,由于采用服务器端保持状态的方案在客户端也需要保存一个标识,所以session机制可能需要借助于cookie机制来达到保存标识的目的。 二、 阅读全文
摘要:
1.selenium基本使用 1.selenium安装及基本操作 selenium是一个自动化测试工具,它支持各种浏览器,包括Chrome,Safari,Firefox等主流界面浏览器驱动,也包括Phantomjs的无界面浏览器。 通过selenium+phantomjs可以直接渲染js 首先,需要 阅读全文
摘要:
1、所需知识补充 1.下载中间件常用函数 process_request(self, request, spider): 当每个request通过下载中间件是,该方法被调用 process_request()函数必须返回一下其中之一:一个None,一个Response对象,一个Request对象或r 阅读全文
摘要:
1.登录自己的github账号,并创建一个存放项目代码的仓库 输入仓库名称后,点击create,然后来到完成后的页面,copy下以下内容,后面会用到 2.打开本地的git 安装好git后,打开git的bash。安装很简单,直接官网下载,双击运行就是。 你有两种方式来到你的本地项目所在文件夹: 通过命 阅读全文
摘要:
利用scrapy模拟登陆人人网,笔者本打算抓取一下个人页面新鲜事,感觉这个网站越做越差,都懒得抓里面的东西了。这里仅仅模拟人人网登陆,说明一下scrapy的POST请求问题。 人人网改版之后,反爬措施是明显加强了呀,post请求发送的东西增加了很多东西; 不过,笔者小测试了一下,发现改版前的网站接口 阅读全文