摘要:
要想将我们爬取到的文件的数据进行持久化操作,那么在Scrapy下有两种方式, 1.基于终端指令的数据持久化 要求:只能将parse方法的返回值储存到文本文件当中 注意:持久化文本文件的类型只能够为csv,json.xml等,不能够为txt,excel 指令使用: scrapy crawl xxx(爬 阅读全文
摘要:
1.行间距使用line-height属性 2.首行缩进使用text-indent,单位为em,一个em就是一个汉字的宽度 3.文字居中使用text-align:center为居中,right则放到最右边,left放到最左边 代码如下所示: <!DOCTYPE html> <html lang="en 阅读全文
摘要:
一.创建一个Scrapy工程 首先我们创建一个名为project_name的scrapy工程: scrapy startproject project_name 在子目录下生成一个名为first的爬虫文件: (base) F:\computer\scrapy_learn>scrapy genspid 阅读全文
摘要:
链接伪类选择器也是一种选择器,它可以向某些选择器当中添加特殊的效果。比如给链接添加特殊的效果。它的使用方法如下所示: :link /# 未访问的链接#/ :visited /# 已经访问的链接#/ :hover /#鼠标移动到链接上 #/ :active /# 选定的链接#/ 用了这四个关键字,我们 阅读全文
摘要:
观察了下QQ空间实在是太好登录了!只需要首先点击账号密码登录,然后输入你的账号和密码就可以了! 其中需要注意的是; 1.进行第一次点击的时候,点击“账号密码”的时候,需要首先切换到iframe模式 2.根据id进行选择输入 代码如下; from selenium import webdriver i 阅读全文
摘要:
ID选择器和class类选择器的不同是:每一个ID只能够被html调用一次,而css当中所编写的class则可以被html调用多次,我们使用ID选择器编写一个谷歌样式的字体,如果需要选择同样的颜色,则需要更换不同的id名称,使用class类选择器编写谷歌字体样式的网页如下: https://www. 阅读全文
摘要:
假设我们想要实现谷歌首页这样的样式字体该怎么办呢?如下所示: 从中可以看到Google当中的G和小写的g均为蓝色,o和e均为红色,剩下的一个o和l分别为黄色和绿色。我们可以使CSS当中的class选择器来完成这字体的编写,首先我们使用span标签来表示Google这个单词如下所示: <!DOCTYP 阅读全文
摘要:
一.为什么要动态IP代理? 当我们有时使用爬虫的时候,如果频繁对某一个界面请求过太多的次数,那么有些网站就会因为反爬虫的措施发现同一个IP地址对它请求了太多的次数,因此对我们的爬虫进行了禁止,你必须要登录这个网站才能够继续进行爬虫。这个时候呢,如果我们能够直接在请求网页的时候不断更换自己的IP地址, 阅读全文
摘要:
在本篇博文当中,将会教会大家如何使用高性能爬虫,快速爬取并解析页面当中的信息。一般情况下,如果我们请求网页的次数太多,每次都要发出一次请求,进行串行执行的话,那么请求将会占用我们大量的时间,这样得不偿失。因此我们可以i使用高性能爬虫,也就是采用多进程,异步的方式对数据进行爬取和解析,这样就可以在更快 阅读全文
摘要:
前言:字体反爬,也是一种常见的反爬技术,例如58同城,猫眼电影票房,汽车之家,天眼查,实习僧等网站。这些网站采用了自定义的字体文件,在浏览器上正常显示,但是爬虫抓取下来的数据要么就是乱码,要么就是变成其他字符,是因为他们采用自定义字体文件,通过在线加载来引用样式,这是CSS3的新特性,通过 CSS3 阅读全文