rain_poi

2020年8月10日

摘要： Android权限说明在Android系统里，想要获取设备信息或更改设备状态首先需要获取系统权限。 Android 6.0(API 23)之后的系统将权限大致分成三类，分别是正常权限、危险权限和特殊权限。Android 6.0之前的系统申请权限只需要在AndroidMainfest.xml文件中申阅读全文

posted @ 2020-08-10 21:54 rain_poi 阅读(2127) 评论(0) 推荐(0)

2019年9月26日

爬虫（四）Selenium + Headless Chrome爬取Bing图片搜索结果

摘要： Bing图片搜索结果是动态加载的，如果我们直接用requests去访问页面爬取数据，那我们只能拿到很少的图片。所以我们使用Selenium + Headless Chrome来爬取搜索结果。在开始前，需要介绍一下xpath。 XPath XPath即为XML路径语言（XML Path Languag 阅读全文

posted @ 2019-09-26 19:55 rain_poi 阅读(1014) 评论(0) 推荐(0)

2019年9月20日

爬虫（三）通过Selenium + Headless Chrome爬取动态网页

摘要：一、Selenium Selenium是一个用于Web应用程序测试的工具，它可以在各种浏览器中运行，包括Chrome，Safari，Firefox 等主流界面式浏览器。我们可以直接用pip install selenium来进行安装。中文翻译文档：https://selenium-python- 阅读全文

posted @ 2019-09-20 10:51 rain_poi 阅读(1468) 评论(0) 推荐(0)

2019年9月15日

python多线程建立代理ip池

摘要：之前有写过用单线程建立代理ip池，但是大家很快就会发现，用单线程来一个个测试代理ip实在是太慢了，跑一次要很久才能结束，完全无法忍受。所以这篇文章就是换用多线程来建立ip池，会比用单线程快很多。之所以用多线程而不是多进程，是因为测试时间主要是花费在等待网络传递数据上，处理本地计算的时间很短，用多线程阅读全文

posted @ 2019-09-15 16:36 rain_poi 阅读(2087) 评论(8) 推荐(0)

2019年9月13日

爬虫（二）建立代理ip池

摘要：之前我们说网站反爬虫的一个常用方法是检测ip，限制访问频率。所以我们要通过设置代理ip的办法绕过这个限制。有不少提供免费代理ip的网站，像https://www.xicidaili.com/nt/，我们可以从网站上拿到很多代理ip。但是这些ip并不是每个都能用的，或者说，没几个能用的。我们可以用b 阅读全文

posted @ 2019-09-13 16:31 rain_poi 阅读(1624) 评论(0) 推荐(1)

爬虫（一）反爬虫机制

摘要：爬虫用久了，总是会被封的。——鲁迅有些网站，特别是一些陈年老站，没有做过反爬虫机制的，我们可以尽情地爬，愉快地爬，把它们的底裤。。数据全都爬下来。最多出于情怀考虑，我们爬慢一点，不给它的服务器太大压力。但是对于有反爬虫机制的网站，我们不能这样。 U-A校验最简单的反爬虫机制应该是U-A校验了。浏阅读全文

posted @ 2019-09-13 09:55 rain_poi 阅读(8571) 评论(0) 推荐(5)

2019年9月12日

Python爬取b站任意up主所有视频弹幕

摘要：爬取b站弹幕并不困难。要得到up主所有视频弹幕，我们首先进入up主视频页面，即https://space.bilibili.com/id号/video这个页面。按F12打开开发者菜单，刷新一下，在network的xhr文件中有一个getSubmitVideo文件，这个文件里就有我们需要的视频av号了阅读全文

posted @ 2019-09-12 21:24 rain_poi 阅读(5045) 评论(0) 推荐(1)

公告