摘要: 简介 打开网易社会招聘网站(https://hr.163.com/job-list.html),使用scrapy框架爬取职位信息。 思路 对于翻页:因为职位信息是不断更新变化的,所以不能使用for循环进行翻页,使用for循环只能爬取固定的页数。应该使用while true进行死循环,然后再进行判断是 阅读全文
posted @ 2020-10-30 21:17 菜鸟峰 阅读(632) 评论(0) 推荐(0) 编辑
摘要: 使用cmd创建scrapy项目:scrapy startmyproject myspider, 创建好项目以后,创建爬虫:scrapy genspider itcast itcast.cn 这时出现了报错,如图 解决办法: 搜索configparser.py文件并修改参数: ①打开文件:C:\Use 阅读全文
posted @ 2020-08-21 02:30 菜鸟峰 阅读(337) 评论(0) 推荐(0) 编辑
摘要: 在用xpath解析网页的时候,会遇到tbody标签。tbody标签有的时候可以解析,有的时候不可以解析,遇到tbody标签时要看网页源代码,如果源代码有tbody标签,就要加上tbody标签才能解析。如果源代码没有tbody标签,那么tbody标签是浏览器对html文本进行一定的规范化而强行加上去的 阅读全文
posted @ 2020-07-11 22:35 菜鸟峰 阅读(1971) 评论(0) 推荐(1) 编辑
摘要: 线程 一个人,他有三个思想。第一个思想是做饭,第二个思想是烧水,第三个思想是洗衣服。这三个思想就是三个线程。 一个人不能同时干三件事。这三个线程具有竞争性,谁赢了这个人就先做这件事。 比如做饭这个线程赢了,这个人就先做饭,做完饭后洗衣服这个线程赢了,这个人接着就洗衣服。。。 进程 有10个人,每个人 阅读全文
posted @ 2020-07-08 01:38 菜鸟峰 阅读(181) 评论(0) 推荐(1) 编辑
摘要: 目标 使用接口实现自动登陆滴滴打码。 分析 1 打开滴滴打码登陆网站:http://www.ddocr.com/user/login.html 。 2 查看接口 1)发现有一个get型接口:login.html 如下图所示。这个接口用于我们请求登陆界面。 2)还发现了一个get型接口:code.ht 阅读全文
posted @ 2020-07-07 20:47 菜鸟峰 阅读(1976) 评论(0) 推荐(1) 编辑
摘要: AJAX (以下内容仅针对爬虫。如果做开发,这些知识还不够,需要深入了解。) AJAX = Asynchronous JavaScript and XML(异步的 JavaScript 和 XML)。AJAX 是一种用于创建快速动态网页的技术。 通过在后台与服务器进行少量数据交换,AJAX 可以使网 阅读全文
posted @ 2020-07-06 16:42 菜鸟峰 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 简介 这篇文章主要介绍selenium的多层框架定位。案例是使用selenium自动登陆QQ空间。 思路 1 使用selenium自动请求QQ空间网站 https://i.qq.com/ 。打开后出现如下页面。 2 通过xpath定位到账号密码登录的位置,然后使用click点击对象。出现如下页面。 阅读全文
posted @ 2020-07-05 23:58 菜鸟峰 阅读(1099) 评论(0) 推荐(0) 编辑
摘要: 基础知识 1 js:JavaScript缩写 json:JavaScript的一种数据格式 2 浏览器的原理:把 html+css+js 下载到本地然后再进行渲染。即看到网页这个过程,实际上是浏览器把代码下载下来,然后浏览器来解释这个代码,变成界面的过程。 3 查看网页源代码:就是别人服务器发送到浏 阅读全文
posted @ 2020-07-05 19:49 菜鸟峰 阅读(2646) 评论(0) 推荐(1) 编辑
摘要: 简介 在爬取网页时,一般都会用到代理IP。蘑菇代理网站:http://www.moguproxy.com/ 蘑菇代理的代理IP有两种:API私密代理和隧道转发代理,这篇文章主要介绍隧道转发代理 。 在官网购买隧道转发代理后,就可以到订单页面查看购买订单的Appkey。如果是第一次使用,那么需要添加白 阅读全文
posted @ 2020-07-05 00:51 菜鸟峰 阅读(1550) 评论(0) 推荐(0) 编辑
摘要: 目标 1 打开安居客二手房页面,如 https://nanning.anjuke.com/sale/?from=navigation 。得到如下页面。 通过分析发现,每个主页有60个二手房信息。一共有50个主页(一般类似网站都只提供50个主页)。 2 打开其中一个二手房的信息后,跳转到如下页面。我们 阅读全文
posted @ 2020-07-04 18:58 菜鸟峰 阅读(1272) 评论(0) 推荐(1) 编辑