摘要: 结合selenium 原理: scrapy框架只能爬取静态网站。如需爬取动态网站,需要结合着selenium进行js的渲染,才能获取到动态加载的数据。 如何通过selenium请求url,而不再通过下载器Downloader去请求这个url? 方法: 在request对象通过中间件的时候,在中间件内 阅读全文
posted @ 2021-10-17 16:03 技术改变命运Andy 阅读(1489) 评论(1) 推荐(0) 编辑
摘要: 总的来说,scrapy框架中设置cookie有三种方式。 第一种: setting文件中设置cookie 当COOKIES_ENABLED是注释的时候scrapy默认没有开启cookie 当COOKIES_ENABLED没有注释设置为False的时候scrapy默认使用了settings里面的coo 阅读全文
posted @ 2021-10-17 16:01 技术改变命运Andy 阅读(1215) 评论(0) 推荐(0) 编辑
摘要: ### 安装 brew install tree # 在一个大文件,层级目录很多的路径,不要直接使用tree,否则会打印很多的目录,没有用, 一般来讲,使用, 查看不同级别子目录和文件使用"tree -L N "这个命令,只查看当前第N级的目录和文件,使用"tree -L 1 "这个命令,只查看当前 阅读全文
posted @ 2021-10-17 13:16 技术改变命运Andy 阅读(207) 评论(0) 推荐(0) 编辑