2019 年 2月随笔档案 - 404NooFound

今日头条 url （as,cp,_signature）模拟js文件

摘要：转自： https://blog.csdn.net/weixin_39416561/article/details/82111455 思路：通过search找到js文件，然后模仿js文件，通过python编译js代码，获得url参数。 as,cp _signature 1 navigator = { 阅读全文

posted @ 2019-02-21 15:19 404NooFound 阅读(1038) 评论(0) 推荐(0)

数据库轮子

摘要：1.MONGODB 2.MYSQL 提前建好表文件阅读全文

posted @ 2019-02-15 20:46 404NooFound 阅读(305) 评论(0) 推荐(0)

scrapy | downloader middleware

摘要：1.User-Agent scrapy默认的由UserAgentMiddleware设置为 "User-Agent": "Scrapy/1.5.1 (+https://scrapy.org)" 一、可以在setting中设置USER-AGENT设置二、自定义随机user-agent 设置完成后在s 阅读全文

posted @ 2019-02-15 14:45 404NooFound 阅读(96) 评论(0) 推荐(0)

在代理池构建时候出现问题：

摘要：在代理池构建时候出现问题： Traceback (most recent call last): File "D:\py_work\ProxyPool-master\proxypool\tester.py", line 32, in test_single_proxy self.redis.max( 阅读全文

posted @ 2019-02-14 16:33 404NooFound 阅读(288) 评论(0) 推荐(0)

分布式爬虫scrapy_redis

摘要：1. 2.打开redis服务 3.修改配置文件 4.在cmd窗口切换到redis目录下如果　REDIS_START_URLS_AS_SET = False 命令为 redis-cli lpush 项目名:start_urls 启动链接如果　REDIS_START_URLS_AS_SET = Tr 阅读全文

posted @ 2019-02-12 23:28 404NooFound 阅读(154) 评论(0) 推荐(0)

scrapy_redis配置文件

摘要：#启用Redis调度存储请求队列 SCHEDULER = "scrapy_redis.scheduler.Scheduler" #确保所有的爬虫通过Redis去重 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" #默认请求序列化使用的是pickle 但是我们可以更改为其他类似的。PS：这玩意儿2.X的可以用。3.X的不... 阅读全文

posted @ 2019-02-12 22:56 404NooFound 阅读(89) 评论(0) 推荐(0)

404NooFound

02 2019 档案

公告