爬虫案例

爬虫小案例

一、猫眼电影

需求：

电影名称
主演
上映时间

操作步骤：

查看是否为动态加载

非动态加载
找URL规律

https://maoyan.com/board/4?offset=0第一页

https://maoyan.com/board/4?offset=10第二页
正则表达式

<div class="movie-item-info">.*?title="(.*?)".*?class="star">(.*?)</p>.*?releasetime">(.*?)</p>
xpath表达式

name_list = ["", "", ""]

star_list = ["", "", ""]

time_list = ["", "", ""]

1. urllib+re

源码如下：

点击跳转

如果对以上运行时间进行优化

可以采用csv一次性多行写入，即以元组的形式
取消sleep，可能导致封IP，考虑代理IP
多线程

使用MySQL存储：

SQL建库建表

源码连接

做一个简单的查询：

查询20年以前的电影的名字和上映时间

select name,time from filmtab where time < (now() - interval 20 year);
查询1990-2000年的电影的名字和上映时间

select name,time from filmtab where time >= "1990-01-01" and time <= "2000-01-01";

2. requests+xpath

源码连接

二、电影天堂

需求：

*****************一级页面*****************
                1、电影名称
                2、电影链接
*****************一级页面*****************
                1、下载链接

操作步骤：

查看是否为静态页面
找URL规律

https://www.dytt8.net/html/gndy/dyzz/list_23_1.html第一页

https://www.dytt8.net/html/gndy/dyzz/list_23_2.html第二页

https://www.dytt8.net/html/gndy/dyzz/list_23_3.html第三页
正则表达式
- 一级
  
  <b>.*?href="(.*?)" class="ulink">(.*?)</a>.*?</b>
- 二级
  
  <td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a.*?(.*?)</a></td>
存进数据库（mysql）

在网页解码的时候，会因为有部分无关紧要的信息无法解码而频繁报错，则可以在网页解码的时候添加参数
decode("gbk", "ignore")

SET NAMES utf8mb4;
SET FOREIGN_KEY_CHECKS = 0;

-- ----------------------------
-- Table structure for moviesky
-- ----------------------------
DROP TABLE IF EXISTS `moviesky`;
CREATE TABLE `moviesky`  (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(50) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,
  `link` varchar(200) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,
  PRIMARY KEY (`id`) USING BTREE
) ENGINE = InnoDB AUTO_INCREMENT = 46 CHARACTER SET = utf8mb4 COLLATE = utf8mb4_general_ci ROW_FORMAT = Dynamic;

SET FOREIGN_KEY_CHECKS = 1;

源码链接

三、链家

需求：

房源名称
总价
单价
详情

分析：

基准表达式（匹配每个房源信息的节点列表）

//ul[@class="sellListContent"]/li
详情表达式

房源名称：.//a[@class="no_resblock_a"]/text()

总价：./div/div[@class="priceInfo"]/div[@class="totalPrice"]/span/text()

单价：./div/div[@class="priceInfo"]/div[2]/span/text()

详情：.//div[@class="houseInfo"]/text()

源码：

源码链接

四、百度贴吧

以伟大的慈善家、性感女神泰勒.斯威夫特为例

泰勒.斯威夫特

需求：

抓取指定贴吧所有的图片

思路：

获取贴吧主页URL，下一页，找到不同页URL规律
获取第一页所有帖子URL地址：[帖子链接1,帖子链接2,...]
对每个帖子链接发请求，获取图片URL
请求图片，保存本地

xpath表达式：

帖子链接：//*[@id="thread_list"]/li//div[@class="t_con cleafix"]/div/div/div/a/@href
图片链接：//div[@class="d_post_content_main d_post_content_firstfloor"]//div[@class="d_post_content j_d_post_content clearfix"]/img[@class="BDE_Image"]/@src

附加：

帖子标题（二级页面）：//h1[@class="core_title_txt"]/text()
帖子发布者（二级页面）：//*[@id="j_p_postlist"]/div[1]/div[2]/ul/li[3]/a/text()

点击查看源码

五、糗事百科

需求：

用户昵称
段子内容
好笑数量
评论数量

xpath语法：

基准列表//div[@id="content-left"]/div
详细信息
- 用户昵称：.//h2/text()
- 段子内容：.//div[@class="content"]/span/text()
- 好笑数量：./div/span/i/text()
- 评论数量：./div/span/a/i/text()

翻页：

https://www.qiushibaike.com/hot/page/1/
https://www.qiushibaike.com/hot/page/2/

源码:

源码链接

六、翻译

1. 有道翻译

该项目为JS加密+异步加载

需求：

自动翻译用户输入的要翻译的词汇

分析过程：

异步加载：http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule

查询参数：

i: tiger # 查询的词汇
from: AUTO
to: AUTO
smartresult: dict
client: fanyideskweb
salt: 15678362639662 # JS加密后的字段
sign: 75ef5f00f335caa2abddde0cb4265724 # JS加密后的字段
ts: 1567836263966 # JS加密后的字段
bv: 7e3150ecbdf9de52dc355751b074cf60
doctype: json
version: 2.1
keyfrom: fanyi.web
action: FY_BY_REALTlME

分析JS加密过程（断点调试）
- ts : 13的时间戳
  - JavaScript：""+ (new Data).getTime()
  - Python：str(int(time.time() * 1000))
- salt：
  - JavaScript：ts + parseInt(10 * Math.random(), 10);
  - Python：ts + str(random.randint(0, 9))
- sign（断点调试之后发现变零e为要翻译的词汇）
  - JavaScript：n.md5("fanyideskweb" + e + salt + "n%A-rKaT5fb[Gy?;N5@Tj")
  - Python
```
from bashlib import md5
s = md5()
s.update("fanyixxxx".encode())
sign = s.hexdigest()
```

源码：

源码链接

2. 百度翻译

请求的地址：https://fanyi.baidu.com/v2transapi

请求的方式：POST

通过案例六的分析流程，得到如下的formdata

from: en
to: zh
query: cat
transtype: realtime
simple_means_flag: 3
sign: 661701.982004
token: b1c15abb7f12da19b720303e59ae9e93

参数作用：

form...to..将什么翻译成什么
query：要翻译的词汇
transtype ：不清楚，不过换单词也不会变，直接写死
simple_means_flag ：不清楚
sign ： js加密后的字串
token ： js加密后的字串

分析加密：

sign加密过程（python实现难度较大）

function a(r) {
	if (Array.isArray(r)) {
		for (var o = 0, t = Array(r.length); o < r.length; o++)
			t[o] = r[o];
		return t
	}
	return Array.from(r)
}
function n(r, o) {
	for (var t = 0; t < o.length - 2; t += 3) {
		var a = o.charAt(t + 2);
		a = a >= "a" ? a.charCodeAt(0) - 87 : Number(a),
		a = "+" === o.charAt(t + 1) ? r >>> a : r << a,
		r = "+" === o.charAt(t) ? r + a & 4294967295 : r ^ a
	}
	return r
}
function e(r) {
	var o = r.match(/[\uD800-\uDBFF][\uDC00-\uDFFF]/g);
	if (null === o) {
		var t = r.length;
		t > 30 && (r = "" + r.substr(0, 10) + r.substr(Math.floor(t / 2) - 5, 10) + r.substr(-10, 10))
	} else {
		for (var e = r.split(/[\uD800-\uDBFF][\uDC00-\uDFFF]/), C = 0, h = e.length, f = []; h > C; C++)
			"" !== e[C] && f.push.apply(f, a(e[C].split(""))),
			C !== h - 1 && f.push(o[C]);
		var g = f.length;
		g > 30 && (r = f.slice(0, 10).join("") + f.slice(Math.floor(g / 2) - 5, Math.floor(g / 2) + 5).join("") + f.slice(-10).join(""))
	}

var u = "320305.131321201"
// var u = void 0
//    , l = "" + String.fromCharCode(103) + //String.fromCharCode(116) + String.fromCharCode(107);
//	u = null !== i ? i : (i = window[l] || "") || "";
    
	for (var d = u.split("."), m = Number(d[0]) || 0, s = Number(d[1]) || 0, S = [], c = 0, v = 0; v < r.length; v++) {
		var A = r.charCodeAt(v);
		128 > A ? S[c++] = A : (2048 > A ? S[c++] = A >> 6 | 192 : (55296 === (64512 & A) && v + 1 < r.length && 56320 === (64512 & r.charCodeAt(v + 1)) ? (A = 65536 + ((1023 & A) << 10) + (1023 & r.charCodeAt(++v)),
		S[c++] = A >> 18 | 240,
		S[c++] = A >> 12 & 63 | 128) : S[c++] = A >> 12 | 224,
		S[c++] = A >> 6 & 63 | 128),
		S[c++] = 63 & A | 128)
	}
	for (var p = m, F = "" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(97) + ("" + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(54)), D = "" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(51) + ("" + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(98)) + ("" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(102)), b = 0; b < S.length; b++)
		p += S[b],
		p = n(p, F);
	return p = n(p, D),
	p ^= s,
	0 > p && (p = (2147483647 & p) + 2147483648),
	p %= 1e6,
	p.toString() + "." + (p ^ m)
}
});

token 加密过程

# 在首页源码中会发现
token: 'b1c15abb7f12da19b720303e59ae9e93',

# URL
https://fanyi.baidu.com/

源码链接

七、豆瓣电影

需求：

地址: 豆瓣电影 - 排行榜 - 剧情
目标: 电影名称、电影评分

F12抓包（XHR）：

Request URL(基准URL地址) ：https://movie.douban.com/j/chart/top_list?
Query String(查询参数)

抓取的查询参数如下：

type: 13
interval_id: 100:90
action: ''
start: 0
limit: 用户输入的电影数量

JSON模块的使用：

json.loads ( json格式的字符串 )：把json格式的字符串转为python数据类型

示例

html = json.loads(res.text)
print(type(html))

源码：

源码链接

八、腾讯招聘

需求：

岗位名称
岗位城市
岗位职责
岗位要求

分析过程：

基准URL：https://careers.tencent.com/search.html
通过抓包不难发现，Ajax异步加载
- 职位列表API：https://careers.tencent.com/tencentcareer/api/post/Query?pageIndex={}&pageSize={}
  
  其中，pageIndex为页码，pageSize为职位数量
- 职位详情API：https://careers.tencent.com/tencentcareer/api/post/ByPostId?&postId={}}
  
  postID可在职位列表API中得到

源码：

源码链接

九、人人网模拟登陆

法一、携带cookie

通过抓包，分析cookie

在发送get请求的时候直接携带cookie

源码：

源码链接

法二、发送POST

使用requests中的session做会话保持

源码：

源码链接

十、区号数据

1. v 1.0

URL:http://www.mca.gov.cn/article/sj/xzqh/2019/

需求：

获取最新的国县以上的行政区代码

分析过程：

在一级页面中拿到的连接是假连接，无法正常跳转二级页面
分析二级页面，找真正的URL

源码链接

2. v 2.0

升级点：

将爬到的数据按照层级关系存储，以此来优化查询速度

分析瓶颈：

建表，分三张表，省、市、县
写入数据用executemany()，提升爬虫速度

思路：

selenium+Chrome打开一级页面，并提取二级页面最新链接
增量爬取: 和数据库version表中进行比对，确定之前是否爬过（是否有更新）
如果没有更新，直接提示用户，无须继续爬取
如果有更新，则删除之前表中数据，重新爬取并插入数据库表
最终完成后: 断开数据库连接，关闭浏览器

源码：

源码链接

SQL练习：

查询所有省市县信息（多表查询）

查询所有省市县信息（连接查询）

select province.p_name,city.c_name,county.x_name from province inner join city on province.p_code=city.c_father_code inner join county on city.c_code=county.x_father_code;

十一、京东爬取

目标：

目标网址：https://www.jd.com/
抓取目标：商品名称、商品价格、评价数量、商品商家

思路：

打开京东，到商品搜索页
匹配所有商品节点对象列表
把节点对象的文本内容取出来，查看规律
提取完1页后，判断如果不是最后1页，则点击下一页

实现步骤：

首页搜索框 : //*[@id="key"]*
*首页搜索按钮 😕/*[@id="search"]/div/div[2]/button
商品页的商品信息节点对象列表 😕/*[@id="J_goodsList"]/ul/li

执行JS脚本，获取动态加载数据：

browser.execute_script(
'window.scrollTo(0,document.body.scrollHeight)'
)

代码实现：

代码链接

十二、盗墓笔记

目标：

url：http://www.daomubiji.com/
抓取目标网站中盗墓笔记1-8中所有章节的所有小说的具体内容，保存到本地文件

分析：

三级页面，首先考虑封装请求函数

xpath：

一级页面的集链接：//article[@class="article-content"]/a/@href

集名称：//article[@class="article-content"]/a//h2/text()
二级页面

基准xpath：//article

章节链接：./a/@href

章节名：./a/text()
三级页面文章内容：//article[@class="article-content"]//p/text()

实现步骤：

源码链接

posted @ 2019-09-17 09:06 ChanceySolo 阅读(299) 评论(0) 编辑收藏举报

刷新页面返回顶部

素心

人生苦短，我用Python。

爬虫案例

爬虫小案例

一、猫眼电影

1. urllib+re

2. requests+xpath

二、电影天堂

三、链家

四、百度贴吧

五、糗事百科

六、翻译

1. 有道翻译

2. 百度翻译

七、豆瓣电影

八、腾讯招聘

九、人人网模拟登陆

十、区号数据

1. v 1.0

2. v 2.0

十一、京东爬取

十二、盗墓笔记

公告