随笔分类 - Python爬虫
摘要:在进行爬虫的过程当中,我们经常会遇到被封IP的情况,因此我们可以搜集一些代理IP,然后使用程序去测试哪些代理IP是可用的,我在这里使用了请求如下网站的方法: http://icanhazip.com/ 请求这个网站之后,如果请求成功,没有遇到异常,就会返回当前你请求这个网站的IP地址。同时保存到一个
阅读全文
摘要:要想将我们爬取到的文件的数据进行持久化操作,那么在Scrapy下有两种方式, 1.基于终端指令的数据持久化 要求:只能将parse方法的返回值储存到文本文件当中 注意:持久化文本文件的类型只能够为csv,json.xml等,不能够为txt,excel 指令使用: scrapy crawl xxx(爬
阅读全文
摘要:一.创建一个Scrapy工程 首先我们创建一个名为project_name的scrapy工程: scrapy startproject project_name 在子目录下生成一个名为first的爬虫文件: (base) F:\computer\scrapy_learn>scrapy genspid
阅读全文
摘要:观察了下QQ空间实在是太好登录了!只需要首先点击账号密码登录,然后输入你的账号和密码就可以了! 其中需要注意的是; 1.进行第一次点击的时候,点击“账号密码”的时候,需要首先切换到iframe模式 2.根据id进行选择输入 代码如下; from selenium import webdriver i
阅读全文
摘要:一.为什么要动态IP代理? 当我们有时使用爬虫的时候,如果频繁对某一个界面请求过太多的次数,那么有些网站就会因为反爬虫的措施发现同一个IP地址对它请求了太多的次数,因此对我们的爬虫进行了禁止,你必须要登录这个网站才能够继续进行爬虫。这个时候呢,如果我们能够直接在请求网页的时候不断更换自己的IP地址,
阅读全文
摘要:在本篇博文当中,将会教会大家如何使用高性能爬虫,快速爬取并解析页面当中的信息。一般情况下,如果我们请求网页的次数太多,每次都要发出一次请求,进行串行执行的话,那么请求将会占用我们大量的时间,这样得不偿失。因此我们可以i使用高性能爬虫,也就是采用多进程,异步的方式对数据进行爬取和解析,这样就可以在更快
阅读全文
摘要:前言:字体反爬,也是一种常见的反爬技术,例如58同城,猫眼电影票房,汽车之家,天眼查,实习僧等网站。这些网站采用了自定义的字体文件,在浏览器上正常显示,但是爬虫抓取下来的数据要么就是乱码,要么就是变成其他字符,是因为他们采用自定义字体文件,通过在线加载来引用样式,这是CSS3的新特性,通过 CSS3
阅读全文
摘要:我们首先打开58同城的网站:观察网站的版面: 发现所有的title都是以h3开头,并且具有class为“ property-content-title-name ” 因此我们可以编写这样的程序即可得到整个版面的title,在程序当中使用Xpath表达式即可,使用起来非常方便: import requ
阅读全文
摘要:假设我爬取了这样的一个html网页,前面的前端代码如下所示: <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>OK资源采集-最新影视资源大全</title> <meta http-equiv="Content-Type" conte
阅读全文
摘要:一.确定爬取思路 今天突发奇想,能不能使用python爬虫来爬取一些妹子图片呢,于是摩拳擦掌开始干了起来。首先打开网页htttps://gank.io 当中的妹子专栏, 发现里面全是妹子,如下所示: 网址如下所示: https://gank.io/special/Girl 翻到最下面发现按钮,一共有
阅读全文
摘要:步骤如下:1.首先导入爬虫的package:requests 2.使用UA 伪装进行反反爬虫,将爬虫伪装成一个浏览器进行上网 3.通过寻找,找到到谷歌搜索时请求的url。 假设我们在谷歌浏览器当中输入:不知道 我们可以得到请求结果的网址如下: 也就是: https://www.google.com/
阅读全文