05 2018 档案

摘要:header = {'Cookie': 'SINAGLOBAL=7368591819178.463.1491810091070; ALF=1558832450; SCF=Ajrc1sxuwynVIu_8ohg_Ec8lbhSNiFFBZYKCgu-_WO4n58uZUfZF3KOC6jtdUN5LZ 阅读全文
posted @ 2018-05-30 08:26 猪啊美 阅读(307) 评论(0) 推荐(0) 编辑
摘要:参考资料: http://www.360doc.com/content/17/0620/16/44530822_664927373.shtml https://blog.csdn.net/guzhou_diaoke/article/details/8253360 https://blog.csdn. 阅读全文
posted @ 2018-05-26 10:58 猪啊美 阅读(986) 评论(0) 推荐(0) 编辑
摘要:import requestsimport refrom lxml import etreeimport osimport randomimport threadingimport timeimport datetimeimport hashlibimport multiprocessingfrom 阅读全文
posted @ 2018-05-25 08:27 猪啊美 阅读(315) 评论(0) 推荐(0) 编辑
摘要:# 启用Redis调度存储请求队列SCHEDULER = "scrapy_redis.scheduler.Scheduler"# 确保所有的爬虫通过Redis去重DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"# 不清除Redis队 阅读全文
posted @ 2018-05-18 15:00 猪啊美 阅读(859) 评论(0) 推荐(0) 编辑
摘要:大体思路 使用redis作为队列,买了一份蘑菇代理,但是这个代理每5秒可以请求一次,我们将IP请求出来,从redis列表队列的左侧插入,要用的时候再从右侧取出,请求成功证明该IP是可用的,将该代理IP从左侧放回,三次都请求失败则认为该代理IP已经失效 代码如下: 阅读全文
posted @ 2018-05-11 14:57 猪啊美 阅读(1197) 评论(0) 推荐(1) 编辑
摘要:request.meta['proxy'] = 'http://'+'175.42.123.111:33995' 阅读全文
posted @ 2018-05-10 16:09 猪啊美 阅读(213) 评论(0) 推荐(0) 编辑
摘要:import requestsimport refrom bs4 import BeautifulSoupfrom string import punctuationimport osheader={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; 阅读全文
posted @ 2018-05-10 16:07 猪啊美 阅读(272) 评论(0) 推荐(0) 编辑
摘要:# coding = utf-8from Crypto.Cipher import AESimport base64import requestsimport jsonheaders = {'Host': 'music.163.com','Origin': 'http://music.163.com 阅读全文
posted @ 2018-05-03 10:36 猪啊美 阅读(889) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示