摘要: 目录列表 阅读全文
posted @ 2018-09-25 15:58 ShadowXie 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 1 class xiaoshuoSpider(scrapy.Spider): 2 name = "freenovel" 3 headers={ 4 'Upgrade - Insecure - Requests': '1', 5 } 6 def start_requests(self): 7 #完本、免费小说 8 ... 阅读全文
posted @ 2018-09-25 15:49 ShadowXie 阅读(457) 评论(0) 推荐(0) 编辑
摘要: 一.文件保存 1.分类保存 2.直接保存 3.图片下载(setting.py文件中设置保存路径 IMAGES_STORE=os.path.join(os.path.dirname(os.path.dirname(__file__)),'images') ) 二、内容去重 阅读全文
posted @ 2018-09-25 15:46 ShadowXie 阅读(236) 评论(0) 推荐(0) 编辑
摘要: # Obey robots.txt rulesROBOTSTXT_OBEY = False 不遵从网站的robots.txt法则 # See also autothrottle settings and docsDOWNLOAD_DELAY = 3 每次下载延迟3秒,防止造成网站攻击 # Overr 阅读全文
posted @ 2018-09-25 15:37 ShadowXie 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 一、Html定位 1.常用的路径表达式: 2.例子: 二、json定位 本文来自 彭世瑜 的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/mouday/article/details/80455560?utm_source=copy 阅读全文
posted @ 2018-09-25 15:30 ShadowXie 阅读(544) 评论(0) 推荐(0) 编辑
摘要: 必备插件: lxml, an efficient XML and HTML parser parsel, an HTML/XML data extraction library written on top of lxml w3lib, a multi-purpose helper for deal 阅读全文
posted @ 2018-09-25 15:16 ShadowXie 阅读(768) 评论(0) 推荐(0) 编辑