Norni - 博客园

2020年5月28日

京东图书爬虫

摘要：效果： >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 阅读全文

posted @ 2020-05-28 16:36 Norni 阅读(457) 评论(0) 推荐(0) 编辑

2020年5月27日

苏宁图书信息爬取

摘要：效果如下：文档说明： >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 阅读全文

posted @ 2020-05-27 18:36 Norni 阅读(382) 评论(0) 推荐(0) 编辑

2020年5月26日

哔哩哔哩单个视频弹幕爬取

摘要： >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 阅读全文

posted @ 2020-05-26 21:22 Norni 阅读(1033) 评论(0) 推荐(0) 编辑

Crontab爬虫定时执行

摘要：安装：`apt-get install cron`（服务器环境下默认安装的有）使用：`crontab -e`进入编辑页面（第一次会让你选择编辑器） `crontab -l`查看当前的定时任务编辑：分小时日月星期命令 0-59　0-23 1-31　1-12　0-6 command 例子阅读全文

posted @ 2020-05-26 00:12 Norni 阅读(346) 评论(0) 推荐(0) 编辑

2020年5月24日

十六、scrapy_redis（分布式爬虫）

摘要： 1、Scrapy_redis的基础概念 2、Scrapy_redis的流程 3、复习redis的使用 4、Scrapy_redis的使用 1、 Scrapy_redis的基础概念 scrapy_redis：基于redis的组件的爬虫 github地址：https://github.com/rmax/ 阅读全文

posted @ 2020-05-24 00:19 Norni 阅读(265) 评论(0) 推荐(0) 编辑

2020年5月23日

证监会处罚公告爬取

摘要：域名：http://www.csrc.gov.cn/pub/zjhpublic/3300/3313/index_7401.htm # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor 阅读全文

posted @ 2020-05-23 20:43 Norni 阅读(569) 评论(0) 推荐(0) 编辑

十五、在scrapy中使用Mongodb

摘要：阅读全文

posted @ 2020-05-23 17:54 Norni 阅读(322) 评论(0) 推荐(0) 编辑

2020年5月22日

十四、认识scrapy的debug信息

摘要：当LOG_LEVEL="DEBUG"等级时，运行爬虫会出现一些信息阅读全文

posted @ 2020-05-22 15:33 Norni 阅读(256) 评论(0) 推荐(0) 编辑

十三、scrapy的Item.py

摘要：在items.py文件中，scrapy.Item是一个BaseItem，为parse函数中能够yield的对象之一。 ``` class MyspiderItem(scrapy.Item): # scrapy.Item是一个字典 name = scrapy.Field() # scrapy.Fiel 阅读全文

posted @ 2020-05-22 11:05 Norni 阅读(344) 评论(0) 推荐(0) 编辑

十二、scrapy中实现翻页请求

摘要： scrapy.Request能构建一个requests，同时指定提取数据的callback函数 ``` next_page_url = '...' while 判断条件，结束递归： yield scrapy.Request(next_page_url,callback=self.parse) ``` 阅读全文

posted @ 2020-05-22 10:44 Norni 阅读(640) 评论(0) 推荐(0) 编辑