scrapy框架使用-模拟登陆，使用cookie登陆，使用post登陆，使用selenium模拟登陆

####

scrapy模拟登陆1---使用cookie登陆

有些网站的cookie过期时间很长，比如一些小网站，

我们可以保存这个cookie，然后携带cookie登陆，

如果操作：

思考，这个start_urls是谁发起的？

这个是在爬虫继承的父类，spider里面，有一个start_requests，这个方法发起的请求，

我们的操作就是重写这个方法，

import scrapy
import re


class Spider3Spider(scrapy.Spider):
    name = 'spider3'
    allowed_domains = ['360doc.com']
    start_urls = ['http://www.360doc.com/myfiles.aspx']

    def start_requests(self):
        cookies = "XXX"  # 复制自己的cookie
        cookies = {i.split("=")[0].strip(): i.split("=")[1].strip() for i in cookies.split(";")}
        # print(cookies)
        yield scrapy.Request(
            self.start_urls[0],
            callback=self.parse,
            cookies=cookies,
        )

    def parse(self, response):
        result_list = re.findall(r'andylee0816', response.body.decode())
        print(result_list)


if __name__ == '__main__':
    from scrapy import cmdline

    cmdline.execute("scrapy crawl spider3 --nolog".split())

###

###

重点是要体会这种思想

这种方式的缺点，就是cookie会失效，

记住这种for循环的方式发起请求，这样每次都会携带cookie登陆了？？？

这种要测试一下，才能理解的更深刻，

####

scrapy模拟登陆2---使用post请求登陆

####

前面学过了，可以parse返回一个request，这里是一个formrequest，也就是带参数的请求，就是post请求，

模拟登陆github，

注意这个formdata，有一个token是变化的，

这个在login这个url里面是有定义的，可以找到，

####

##

注意，组成的post数据，key不需要写引号，

这种就是使用post登陆，

####

###

###

###

这种方法是scrapy里面正统的登陆的方法，但是这个不是所有的网页都能行的，有一些网站登陆用这个方法就不行！！！

这个必须要知道，

但是你要体会这种登陆的思想，懂不，重要的是思想，

###

这个方法会自动去寻找form表达，我们只需要写用户名，密码就可以了，

但是如果有两个表单怎么办？

看看源码，可以定位具体的某一个表单，

但是这种只能用于没有验证的登陆，如果有验证其他的东西，就没有这么简单了，

如果密码post传递的时候加密了，就要找到js代码，看看怎么加密的，你加密之后传递就可以了，

####

上面的formrequest的登陆方式如果有验证码，就是无解的，

而使用cookie又是出现cookie失效的问题，

###

第三种方法，就是使用selenium登陆，这种才是好办法，

scrapy结合selenium模拟登陆----直接selenium拿到response返回

这种方法需要学习一下，这个算是一个通解，

比如模拟登陆淘宝，

下载中间件：

所以这个selenium也是在下载中间件来做文章的，

处理了请求

###

有关信号的知识，还是需要认识看一下，

这种登陆，还是强依赖selenium的，是否有办法，可以直接通过selenium拿到cookie，然后通过cookie登陆呢，

###

scrapy结合selenium模拟登陆----只使用selenium一次，拿到cookie之后，使用requests请求链接把response返回

爬虫

中间件

可见从上面的例子，可以看到，

我们可以通过selenium登陆，然后拿到cookie，然后通过requests携带cookie登陆，返回这个response，

那就厉害了，也就是说，每次爬虫处理的response，都是requests携带cookie请求过的，那这样就可以实现登陆了，

####

这种方式还有问题，是不是可以直接把cookie拿到，然后传递过scrapy呢，不要requests的参与，

也就是scrapy构造后续请求传递cookie的时候，都是把拿到的cookie携带访问的，

####

scrapy结合selenium模拟登陆----只使用selenium一次，拿到cookie之后，把cookie交给scrapy，后续都是scrapy的事情

我们要知道，scrapy的cookie形态，和selenium的cookie形态是不一样的，前者是一个列表，里面一个字符串，而后者是一个里面，里面是字典格式的cookie，

所以这个应该放到哪里比较好，就是这个下载中间件的process_request里面，对请求进行处理，给他加上cookie，

######

######

scrapy结合selenium模拟登陆----只使用selenium一次，拿到cookie之后，放到一个文件中，为了后续能在分布式中传递数据，

还可以把这个cookie放到文件中，然后通过文件来访问cookie，去登陆

####

posted @ 2021-07-25 21:12 技术改变命运Andy 阅读(672) 评论(0) 收藏举报

刷新页面返回顶部