摘要: 1. 可以使用API从脚本运行Scrapy,而不是运行Scrapy的典型方法scrapy crawl;Scrapy是基于Twisted异步网络库构建的,因此需要在Twisted容器内运行它,可以通过两个API来运行单个或多个爬虫scrapy.crawler.CrawlerProcess、scrapy 阅读全文
posted @ 2020-01-17 22:22 pypypypy 阅读(378) 评论(0) 推荐(0) 编辑
摘要: 1,cookie登录 利用cookie的特性:cookie会保持较长的时间,来避免用户频繁登录 cookie一般由前端开发用js生成,可以利用抓包尝试下破解,不过这个难度有点高,不过破解js本就是爬虫必须直面面对的 2OCR库里的tesseract(光学文字识别)可以解决大多数的传统验证码 软件te 阅读全文
posted @ 2020-01-17 20:49 pypypypy 阅读(1743) 评论(0) 推荐(0) 编辑