摘要: 基于 Scrapy-redis 的分布式爬虫设计 目录 前言 安装 环境 Debian / Ubuntu / Deepin 下安装 Windows 下安装 基本使用 初始化项目 创建爬虫 运行爬虫 爬取结果 进阶使用 分布式爬虫 anti-anti-spider URL Filter 总结 相关资料 阅读全文
posted @ 2018-08-22 12:18 时间&煮雨~ 阅读(1457) 评论(0) 推荐(0) 编辑
摘要: 创建CrawlSpider爬虫简要步骤: 1. 创建项目文件: 2. 进入项目文件: 3. 修改items.py文件中需要获取的字段: 4. 进入爬虫文件: 5. 创建爬虫: 6. 修改dy.py 7. 修改管道文件pipelines.py 8. 设置settings.py e.g: 优先级设置等 阅读全文
posted @ 2018-08-21 18:33 时间&煮雨~ 阅读(2094) 评论(0) 推荐(0) 编辑
摘要: 将redis中的数据导入到本地MongoDB数据库 创建一个process_items_mongodb.py文件(文件名自定义): 将redis中的数据导入到本地MySQL数据库 创建一个process_items_mysql.py文件(文件名自定义): 阅读全文
posted @ 2018-08-21 18:13 时间&煮雨~ 阅读(2814) 评论(0) 推荐(0) 编辑
摘要: ubuntu下mysql不能用IP地址远程访问的问题解决 方法1: (%) 表示所有ip 第1个root表示账户 第2个root表示密码 2.mysql>flush privileges; 3.停止并重启mysql服务。 停止命令: 启动命令: 查看状态: 如果以上操作还是不能访问,那么应该是mys 阅读全文
posted @ 2018-08-20 23:46 时间&煮雨~ 阅读(194) 评论(0) 推荐(0) 编辑
摘要: vi命令汇总 vi方面网上一搜一大堆,这个在我想不起来的时候查阅的多一点,我用的shell是zsh 进入vi的命令 vi filename :打开或新建文件,并将光标置于第一行首 vi +n filename :打开文件,并将光标置于第n行首 vi + filename :打开文件,并将光标置于最后 阅读全文
posted @ 2018-08-03 21:36 时间&煮雨~ 阅读(33276) 评论(0) 推荐(2) 编辑
摘要: Chrome/FireFox处理JSON的插件 JSON插件 JSON插件 JSON插件 效果对比 对于json的数据如果不编排一下格式查看起来很费劲,今天推荐一款chrome/Firfox下处理json的插件JSON-handle,这个如果搜的话肯定很多,不过这个应该是我用过最好最方便的了。 没有 阅读全文
posted @ 2018-08-03 21:21 时间&煮雨~ 阅读(730) 评论(0) 推荐(0) 编辑
摘要: 关于判断语句中如:while not xx: 或者:if not xx: 的含义及用法解析 python中的not具体表示是什么: 在python中not是逻辑判断词,用于布尔型True和False,not True为False,not False为True,以下是几个常用的not的用法: (1) 阅读全文
posted @ 2018-08-02 10:24 时间&煮雨~ 阅读(12500) 评论(0) 推荐(0) 编辑
摘要: HTTP响应状态码参考: 1xx:信息 2xx:成功 3xx:重定向 4xx:客户端错误 5xx:服务器错误 阅读全文
posted @ 2018-07-30 00:46 时间&煮雨~ 阅读(7975) 评论(0) 推荐(1) 编辑
摘要: WechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。 DouBanSpider [2]- 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家 阅读全文
posted @ 2018-07-30 00:29 时间&煮雨~ 阅读(30096) 评论(0) 推荐(0) 编辑
摘要: 博客园如何设置目录生成&设置目录&设置标题背景色&修改标题背景色 阅读目录 前提 设置目录生成&设置/修改标题背景色 设置目录 前提 注意: 请先申请开通JS接口!! 今天帮朋友设置后台代码,发现怎么都没有效果,看了下忽略了JS接口; 因为插入的代码大多有JS功能,不申请开通JS功能自然无法支持JS 阅读全文
posted @ 2018-07-25 18:11 时间&煮雨~ 阅读(426) 评论(0) 推荐(0) 编辑