摘要: pipeLines文件中的open_spider函数和close_spider函数都只会执行一次。 (open_spider函数:爬虫开启时只执行一次;close_spider函数:爬虫结束时执行一次) 阅读全文
posted @ 2018-11-23 22:12 飘在天上的云 阅读(521) 评论(0) 推荐(0) 编辑
摘要: 以爬取阳光阳光热线问政平台网站为例,进行详情页的爬取。 下面为pipelines.py文件中对爬取的数据处理操作。 在settings.py文件中修改USER_AGENT的内容是对方服务器无法一眼看出我们的请求是爬虫。 默认settings.py文件中的USER_AGENT为: 将settings. 阅读全文
posted @ 2018-11-23 11:16 飘在天上的云 阅读(3176) 评论(0) 推荐(1) 编辑
摘要: 通过scrapy.Request实现翻页请求: 这里以爬取腾讯招聘网站的岗位信息为例制作一个爬虫进行翻页请求的实现 阅读全文
posted @ 2018-11-22 21:46 飘在天上的云 阅读(987) 评论(0) 推荐(0) 编辑
摘要: 通过scrapy.Request实现翻页请求: 这里一爬取腾讯招聘网站的岗位信息为例制作一个爬虫进行翻页请求的实现 阅读全文
posted @ 2018-11-22 21:44 飘在天上的云 阅读(6123) 评论(0) 推荐(0) 编辑
摘要: 一、在scrapy中的应用: 1、在settings中的设置: 2、在spider.py或pipelines.py文件中import logging,实例化logger的方式,使用logger输出内容: 二、在普通项目中的应用: 阅读全文
posted @ 2018-11-22 20:44 飘在天上的云 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 问题描述:在一个爬虫项目里有多个爬虫进行数据的爬取,如何在pipeline中识别数据是来自哪个爬虫的, 方法: 方法一:在 爬虫的parse函数下,对爬取的数据添加一个标识字段: 方法二:在pipelines.py中的process_item函数里的spider的属性来判断: 阅读全文
posted @ 2018-11-22 20:01 飘在天上的云 阅读(614) 评论(0) 推荐(0) 编辑
摘要: 步骤: 一,新建一个工程 二,在工程中中新建一个爬虫项目,scrapy startproject myspider 三,切入到项目目录下,然后在项目中,新建一个爬虫spider。 四,在itcast.py中,编写爬取程序 五,开启MyspiderPipeline之前需要在settings.py中开启 阅读全文
posted @ 2018-11-22 17:07 飘在天上的云 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 1、打开anaconda prompt 2、输入如下指令 3、显示出jupyter_notebook_config.py 文件所在目录。找到这个文件,用记事本打开 4、在 # c.NotebookApp.browser = '''' 后加入下面语句块: 阅读全文
posted @ 2018-11-20 21:51 飘在天上的云 阅读(8591) 评论(0) 推荐(0) 编辑
摘要: 问题描述: Mysql 服务可以启动,输入mysql –u root –p 打回车后提示ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: NO)。 解决方法: 第一种情况:未设置root密码的 阅读全文
posted @ 2018-10-25 18:58 飘在天上的云 阅读(4963) 评论(0) 推荐(0) 编辑
摘要: 排序的稳定性和复杂度 不稳定: 选择排序(selection sort)— O(n2) 快速排序(quicksort)— O(nlogn) 平均时间, O(n2) 最坏情况; 对于大的、乱序串列一般认为是最快的已知排序 希尔排序 (shell sort)— O(nlogn) 稳定: 插入排序(ins 阅读全文
posted @ 2018-10-24 17:14 飘在天上的云 阅读(205) 评论(0) 推荐(0) 编辑