飘在天上的云

2018年11月23日

摘要： pipeLines文件中的open_spider函数和close_spider函数都只会执行一次。（open_spider函数：爬虫开启时只执行一次；close_spider函数：爬虫结束时执行一次）阅读全文

posted @ 2018-11-23 22:12 飘在天上的云阅读(526) 评论(0) 推荐(0) 编辑

摘要：以爬取阳光阳光热线问政平台网站为例，进行详情页的爬取。下面为pipelines.py文件中对爬取的数据处理操作。在settings.py文件中修改USER_AGENT的内容是对方服务器无法一眼看出我们的请求是爬虫。默认settings.py文件中的USER_AGENT为：将settings. 阅读全文

posted @ 2018-11-23 11:16 飘在天上的云阅读(3187) 评论(0) 推荐(1) 编辑

2018年11月22日

在scrapy框架下爬虫中如何实现翻页请求

摘要：通过scrapy.Request实现翻页请求：这里以爬取腾讯招聘网站的岗位信息为例制作一个爬虫进行翻页请求的实现阅读全文

posted @ 2018-11-22 21:46 飘在天上的云阅读(990) 评论(0) 推荐(0) 编辑

scrapy爬虫中如何实现翻页请求

摘要：通过scrapy.Request实现翻页请求：这里一爬取腾讯招聘网站的岗位信息为例制作一个爬虫进行翻页请求的实现阅读全文

posted @ 2018-11-22 21:44 飘在天上的云阅读(6166) 评论(0) 推荐(0) 编辑

logging模块在scrapy框架中及在普通项目中的应用

摘要：一、在scrapy中的应用： 1、在settings中的设置： 2、在spider.py或pipelines.py文件中import logging，实例化logger的方式，使用logger输出内容：二、在普通项目中的应用：阅读全文

posted @ 2018-11-22 20:44 飘在天上的云阅读(275) 评论(0) 推荐(0) 编辑

一个爬虫项目里有多个爬虫，如何识别数据来源

摘要：问题描述：在一个爬虫项目里有多个爬虫进行数据的爬取，如何在pipeline中识别数据是来自哪个爬虫的，方法：方法一：在爬虫的parse函数下，对爬取的数据添加一个标识字段：方法二：在pipelines.py中的process_item函数里的spider的属性来判断：阅读全文

posted @ 2018-11-22 20:01 飘在天上的云阅读(622) 评论(0) 推荐(0) 编辑

使用python在scrapy框架下制作一个简单的爬虫

摘要：步骤：一，新建一个工程二，在工程中中新建一个爬虫项目，scrapy startproject myspider 三，切入到项目目录下，然后在项目中，新建一个爬虫spider。四，在itcast.py中，编写爬取程序五，开启MyspiderPipeline之前需要在settings.py中开启阅读全文

posted @ 2018-11-22 17:07 飘在天上的云阅读(243) 评论(0) 推荐(0) 编辑

2018年11月20日

Anacoda中如何修改jupyter notebook 打开的默认浏览器（chrome ）

摘要： 1、打开anaconda prompt 2、输入如下指令 3、显示出jupyter_notebook_config.py 文件所在目录。找到这个文件，用记事本打开 4、在 # c.NotebookApp.browser = '''' 后加入下面语句块：阅读全文

posted @ 2018-11-20 21:51 飘在天上的云阅读(8702) 评论(0) 推荐(0) 编辑

2018年10月25日

windows下MySQL登录问题错误 ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: NO)

摘要：问题描述： Mysql 服务可以启动，输入mysql –u root –p 打回车后提示ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: NO)。解决方法：第一种情况：未设置root密码的阅读全文

posted @ 2018-10-25 18:58 飘在天上的云阅读(5174) 评论(0) 推荐(0) 编辑

2018年10月24日

经典排序算法的总结及Python实现

摘要：排序的稳定性和复杂度不稳定：选择排序（selection sort）— O(n2) 快速排序（quicksort）— O(nlogn) 平均时间, O(n2) 最坏情况; 对于大的、乱序串列一般认为是最快的已知排序希尔排序（shell sort）— O(nlogn) 稳定：插入排序（ins 阅读全文

posted @ 2018-10-24 17:14 飘在天上的云阅读(207) 评论(0) 推荐(0) 编辑

王志良

公告