我来自北方 跨过山与海 驻足你门外

摘要: ###scrapy持久化存储 基于终端的存储 - 只可以将parse方法的返回值存储到本地的文本文件中 - 只支持json jsonlines jl csv xml marshal pickle这几种文本 - 好处:简洁,高效 - 缺点:局限性比较强(数据只可以存储到指定后缀的文本文件中) - 指令 阅读全文
posted @ 2020-09-22 22:41 SkyRabbit 阅读(83) 评论(0) 推荐(0) 编辑
摘要: ###scrapy 配置文件setting.py BOT_NAME = 'TestOne' SPIDER_MODULES = ['TestOne.spiders'] NEWSPIDER_MODULE = 'TestOne.spiders' #UA伪装 USER_AGENT = 'Mozilla/5. 阅读全文
posted @ 2020-09-22 22:28 SkyRabbit 阅读(87) 评论(0) 推荐(0) 编辑
摘要: ###如何创建一个Scrapy的框架 #TestOne是名字 scrapy startproject TestOne ###在spiders子目录中创建一个爬虫文件 # spiderName 名字 # www.xxx.com起始url scrapy genspider spiderName www. 阅读全文
posted @ 2020-09-22 20:53 SkyRabbit 阅读(90) 评论(0) 推荐(0) 编辑
摘要: ###实战项目,干货满满 import requests from hashlib import md5 #实现规避检测 from selenium.webdriver import FirefoxOptions from selenium.webdriver import ChromeOption 阅读全文
posted @ 2020-09-22 11:59 SkyRabbit 阅读(203) 评论(0) 推荐(0) 编辑
您的浏览器不兼容canvas