python爬虫 - 随笔分类 - 测试-安静

爬虫---爬取公众号内容

摘要：前面写都是抓取一些网站上的数据，今天工作提前完成了，闲来无事写一篇如何抓取公众号数据。爬取公众号常见的爬取公众号有3种方法 1、通过抓包获取公众号数据（app端） 2、通过抓包获取公众号数据（PC端） 3、通过搜狗搜索公众号（目前只能显示前10篇文章）今天写的是通过抓取PC端数据获取公众号内容阅读全文

posted @ 2019-09-06 18:16 测试-安静阅读(7579) 评论(6) 推荐(1)

爬虫---爬取拉钩信息网

摘要：今天不知道写点什么，想到金9银10了写一篇抓取拉勾网我们软件测试工程师的薪资~~ 爬取拉勾网职业信息分析网站信息 1、打开拉勾网，输入我们想要查找的职位 2、通过抓包工具或者开发者工具查看请求数据发现是请求地址：https://www.lagou.com/jobs/positionAjax.js 阅读全文

posted @ 2019-09-01 21:07 测试-安静阅读(1786) 评论(3) 推荐(1)

爬虫---爬取b站小视频

摘要：前面通过python爬虫爬取过图片，文字，今天我们一起爬取下b站的小视频，其实呢，测试过程中需要用到视频文件，找了几个网站下载，都需要会员什么的，直接写一篇爬虫爬取视频~~~ 分析b站小视频 1、进入到抓取链接地址 http://vc.bilibili.com/p/eden/rank#/?tab=% 阅读全文

posted @ 2019-08-30 16:28 测试-安静阅读(8238) 评论(7) 推荐(2)

爬虫---爬取豆瓣网评论内容

摘要：这段时间肯定经常听到一句话“我命由我不由天”，没错，就是我们国产动漫哪咤，今天我们通过python还有上次写的pyquery库来爬取豆瓣网评论内容爬取豆瓣网评论 1、找到我们想要爬取的电影小哪咤 2、查看影片评论点击查看我们的影评，发现只能查看前200个影评，这里就需要登录了分析出来全部影阅读全文

posted @ 2019-08-11 14:04 测试-安静阅读(5605) 评论(0) 推荐(0)

爬虫---PyQuert简介

摘要：今天写一篇最近刚学习的一个第3方库pyquery，pyquery比bs4，lxml更强大的一个网页解析工具。什么是pyQuery Pyquery是python的第3方库，PyQuery库也是一个非常强大又灵活的网页解析库，它提供了和jQuery 类似的语法来解析HTML 文梢，支持css 选择器，阅读全文

posted @ 2019-08-03 14:27 测试-安静阅读(614) 评论(0) 推荐(0)

爬虫---lxml爬取博客文章

摘要：上一篇大概写了下lxml的用法，今天我们通过案例来实践，爬取我的博客博客并保存在本地爬取博客园博客爬取思路： 1、首先找到需要爬取的博客园地址 2、解析博客园地址 3、通过博客名称抓取博客标题和详情链接。经过分析数据我们需要a标签下的文字和href内容 4、再次请求博客详情链接获取博客内容通阅读全文

posted @ 2019-08-01 15:58 测试-安静阅读(507) 评论(0) 推荐(0)

爬虫---lxml简单操作

摘要：前几篇写了一些Beautiful Soup的一些简单操作，也拿出来了一些实例进行实践，今天引入一个新的python库lxmt，lxmt也可以完成数据的爬取哦什么是lxml lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。 lxml学习文档阅读全文

posted @ 2019-07-22 23:49 测试-安静阅读(1945) 评论(0) 推荐(0)

爬虫---Beautiful Soup 通过添加不同的IP请求

摘要：上一篇爬虫写了如何应付反爬的一些策略也简单的举了根据UA的例子，今天写一篇如何根据不同IP进行访问豆瓣网获取排行版 requests添加IP代理如果使用代理的话可以通过requests中的方法proxies 会有人问，这么多代理去哪里找？小编百度了找了一些发现西刺代理挺好用的。随便从里面找1个进阅读全文

posted @ 2019-07-15 13:57 测试-安静阅读(1030) 评论(0) 推荐(0)

爬虫---Beautiful Soup 反反爬虫事例

摘要：前两章简单的讲了Beautiful Soup的用法，在爬虫的过程中相信都遇到过一些反爬虫，如何跳过这些反爬虫呢？今天通过知乎网写一个简单的反爬中什么是反爬虫简单的说就是使用任何技术手段，阻止别人批量获取自己网站信息的一种方式。关键也在于批量。反反爬虫机制增加请求头 headers为了模拟更真阅读全文

posted @ 2019-07-05 18:44 测试-安静阅读(1965) 评论(0) 推荐(1)

爬虫---Beautiful Soup 爬取图片

摘要：上一篇简单的介绍Beautiful Soup 的基本用法，这一篇写下如何爬取网站上的图片，并保存下来爬取图片 1.找到一个福利网站：http://www.xiaohuar.com/list-1-1.html 2.通过F12进行定位图片 3.通过下图可以看到标签为img，然后通过width="210 阅读全文

posted @ 2019-07-05 12:02 测试-安静阅读(5017) 评论(2) 推荐(0)

爬虫---Beautiful Soup 初始

摘要：我们在工作中，都会听说过爬虫，那么什么是爬虫呢？什么是网络爬虫爬虫基本原理所谓网络爬虫就是一个自动化数据采集工具，你只要告诉它要采集哪些数据，丢给它一个 URL，就能自动地抓取数据了。其背后的基本原理就是爬虫程序向目标服务器发起 HTTP 请求，然后目标服务器返回响应结果，爬虫客户端收到响应并阅读全文

posted @ 2019-07-01 15:49 测试-安静阅读(1691) 评论(0) 推荐(0)

测试-安静

刚入行的测试小白，积累个人学习内容，希望可以帮助到大家。

随笔分类 - python爬虫

公告