Python_记一次网站数据定向爬取实现

记一次网站数据定向爬取实现

by:授客 QQ：1033553122

测试环境：

Python版本：Python 3.4

Win7

请勿用于商业及非法用途，仅供学习研究用，否则后果自负

数据爬取场景

如下，打开网站查询页面，输入关键字，点击查询

如上图，如果记录数比较多，还会有翻页按钮出现

Python_记一次网站数据定向爬取实现

如上图，右侧还有个最新资助列表，和左侧记录是同一个性质

如下图，点击列表记录，打开以下界面

Python_记一次网站数据定向爬取实现

数据爬取需求：获取上述红色选框部分的数据，因为记录检索可能比较多，可能有几百页，所以还要求可以只获取指定翻页数量

程序实现思路

1、获取关键字查询url

/index.php?m=&c=Search&a=index&keyword=丰巢&hash=dkFMbUhBTkJIPTNCRjc3Z09yczZVOWRONS1xRE89cU9JPThkTnYzeEM5MW1U&__hash__=77b9003885166213582f27c5e6098d21_53f9dce8d49ffef0259a38cb6a6a3c8b&p=1

2、获取记录页面访问url

3、获取数据

4、翻页查询，并重复1-3

由第1点可知，翻页查询仅需要替换 &p=1中的数字

需要注意的地方，就是要过滤右侧的最新资助列表中的记录链接，另外，要控制翻页数，所以访问xxx……&p=1的链接时，就要获取总记录数，然后计算总的翻页数量

实现效果

Python_记一次网站数据定向爬取实现

代码下载

https://pan.baidu.com/s/1HJkGUgyZOxkjTNpPBrJKzA

posted @ 2018-09-28 21:21 授客阅读(699) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 【.NET】调用本地 Deepseek 模型
· CSnakes vs Python.NET：高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动！「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库

公告

欢迎关注授客的博客

昵称：授客
园龄： 6年2个月
粉丝： 128
关注： 0

+加关注

2025年2月

日

一

二

三

四

五

六

Python_记一次网站数据定向爬取实现

公告

最新随笔

积分与排名

随笔分类 (792)

随笔档案 (688)

阅读排行榜

评论排行榜

最新评论