2018 年 9月 25 日随笔档案 - ShadowXie

2018年9月25日

摘要：目录列表阅读全文

posted @ 2018-09-25 15:58 ShadowXie 阅读(131) 评论(0) 推荐(0) 编辑

摘要： 1 class xiaoshuoSpider(scrapy.Spider): 2 name = "freenovel" 3 headers={ 4 'Upgrade - Insecure - Requests': '1', 5 } 6 def start_requests(self): 7 #完本、免费小说 8 ... 阅读全文

posted @ 2018-09-25 15:49 ShadowXie 阅读(457) 评论(0) 推荐(0) 编辑

Scrapy爬虫-pipeline.py

摘要：一.文件保存 1.分类保存 2.直接保存 3.图片下载（setting.py文件中设置保存路径 IMAGES_STORE=os.path.join(os.path.dirname(os.path.dirname(__file__)),'images') ）二、内容去重阅读全文

posted @ 2018-09-25 15:46 ShadowXie 阅读(236) 评论(0) 推荐(0) 编辑

scrapy爬虫-setting.py

摘要： # Obey robots.txt rulesROBOTSTXT_OBEY = False 不遵从网站的robots.txt法则 # See also autothrottle settings and docsDOWNLOAD_DELAY = 3 每次下载延迟3秒，防止造成网站攻击 # Overr 阅读全文

posted @ 2018-09-25 15:37 ShadowXie 阅读(207) 评论(0) 推荐(0) 编辑

Scrapy爬虫-定位

摘要：一、Html定位 1.常用的路径表达式： 2.例子：二、json定位本文来自彭世瑜的CSDN 博客，全文地址请点击：https://blog.csdn.net/mouday/article/details/80455560?utm_source=copy 阅读全文

posted @ 2018-09-25 15:30 ShadowXie 阅读(544) 评论(0) 推荐(0) 编辑

Scrapy爬虫-必备插件

摘要：必备插件： lxml, an efficient XML and HTML parser parsel, an HTML/XML data extraction library written on top of lxml w3lib, a multi-purpose helper for deal 阅读全文

posted @ 2018-09-25 15:16 ShadowXie 阅读(768) 评论(0) 推荐(0) 编辑

ShadowXie

公告