随笔分类 -  python爬虫

摘要:前面写都是抓取一些网站上的数据,今天工作提前完成了,闲来无事写一篇如何抓取公众号数据。 爬取公众号 常见的爬取公众号有3种方法 1、通过抓包获取公众号数据(app端) 2、通过抓包获取公众号数据(PC端) 3、通过搜狗搜索公众号(目前只能显示前10篇文章) 今天写的是通过抓取PC端数据获取公众号内容 阅读全文
posted @ 2019-09-06 18:16 测试-安静 阅读(7253) 评论(6) 推荐(1) 编辑
摘要:今天不知道写点什么,想到金9银10了写一篇抓取拉勾网我们软件测试工程师的薪资~~ 爬取拉勾网职业信息 分析网站信息 1、打开拉勾网,输入我们想要查找的职位 2、通过抓包工具或者开发者工具查看请求数据 发现是请求地址:https://www.lagou.com/jobs/positionAjax.js 阅读全文
posted @ 2019-09-01 21:07 测试-安静 阅读(1756) 评论(3) 推荐(1) 编辑
摘要:前面通过python爬虫爬取过图片,文字,今天我们一起爬取下b站的小视频,其实呢,测试过程中需要用到视频文件,找了几个网站下载,都需要会员什么的,直接写一篇爬虫爬取视频~~~ 分析b站小视频 1、进入到抓取链接地址 http://vc.bilibili.com/p/eden/rank#/?tab=% 阅读全文
posted @ 2019-08-30 16:28 测试-安静 阅读(8112) 评论(7) 推荐(2) 编辑
摘要:这段时间肯定经常听到一句话“我命由我不由天”,没错,就是我们国产动漫 哪咤,今天我们通过python还有上次写的pyquery库来爬取豆瓣网评论内容 爬取豆瓣网评论 1、找到我们想要爬取的电影 小哪咤 2、查看影片评论 点击查看我们的影评,发现只能查看前200个影评,这里就需要登录了 分析出来全部影 阅读全文
posted @ 2019-08-11 14:04 测试-安静 阅读(5448) 评论(0) 推荐(0) 编辑
摘要:今天写一篇最近刚学习的一个第3方库pyquery,pyquery比bs4,lxml更强大的一个网页解析工具。 什么是pyQuery Pyquery是python的第3方库,PyQuery库也是一个非常强大又灵活的网页解析库,它提供了和jQuery 类似的语法来解析HTML 文梢,支持css 选择器, 阅读全文
posted @ 2019-08-03 14:27 测试-安静 阅读(584) 评论(0) 推荐(0) 编辑
摘要:上一篇大概写了下lxml的用法,今天我们通过案例来实践,爬取我的博客博客并保存在本地 爬取博客园博客 爬取思路: 1、首先找到需要爬取的博客园地址 2、解析博客园地址 3、通过博客名称抓取博客标题和详情链接。 经过分析数据我们需要a标签下的文字和href内容 4、再次请求博客详情链接获取博客内容 通 阅读全文
posted @ 2019-08-01 15:58 测试-安静 阅读(492) 评论(0) 推荐(0) 编辑
摘要:前几篇写了一些Beautiful Soup的一些简单操作,也拿出来了一些实例进行实践,今天引入一个新的python库lxmt,lxmt也可以完成数据的爬取哦 什么是lxml lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。 lxml学习文档 阅读全文
posted @ 2019-07-22 23:49 测试-安静 阅读(1887) 评论(0) 推荐(0) 编辑
摘要:上一篇爬虫写了如何应付反爬的一些策略也简单的举了根据UA的例子,今天写一篇如何根据不同IP进行访问豆瓣网获取排行版 requests添加IP代理 如果使用代理的话可以通过requests中的方法proxies 会有人问,这么多代理去哪里找?小编百度了找了一些发现西刺代理挺好用的。 随便从里面找1个进 阅读全文
posted @ 2019-07-15 13:57 测试-安静 阅读(1004) 评论(0) 推荐(0) 编辑
摘要:前两章简单的讲了Beautiful Soup的用法,在爬虫的过程中相信都遇到过一些反爬虫,如何跳过这些反爬虫呢?今天通过知乎网写一个简单的反爬中 什么是反爬虫 简单的说就是使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批量。 反反爬虫机制 增加请求头 headers为了模拟更真 阅读全文
posted @ 2019-07-05 18:44 测试-安静 阅读(1851) 评论(0) 推荐(1) 编辑
摘要:上一篇简单的介绍Beautiful Soup 的基本用法,这一篇写下如何爬取网站上的图片,并保存下来 爬取图片 1.找到一个福利网站:http://www.xiaohuar.com/list-1-1.html 2.通过F12进行定位图片 3.通过下图可以看到标签为img,然后通过width="210 阅读全文
posted @ 2019-07-05 12:02 测试-安静 阅读(4920) 评论(2) 推荐(0) 编辑
摘要:我们在工作中,都会听说过爬虫,那么什么是爬虫呢? 什么是网络爬虫 爬虫基本原理 所谓网络爬虫就是一个自动化数据采集工具,你只要告诉它要采集哪些数据,丢给它一个 URL,就能自动地抓取数据了。其背后的基本原理就是爬虫程序向目标服务器发起 HTTP 请求,然后目标服务器返回响应结果,爬虫客户端收到响应并 阅读全文
posted @ 2019-07-01 15:49 测试-安静 阅读(1664) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示