foremost - 博客园

2018年12月11日

摘要：作业需求: 爬取北京全站租房信息爬取全站用基于crawlspider建立爬虫文件对北京出租下的70页信息进行爬取：分析页码网页 https://bj.58.com/chuzu/pn2 bj代表北京包括四种类型的房源：个人房源；经纪人；安选房源；品牌公寓个人房源：经纪人：安选房源：品牌阅读全文

posted @ 2018-12-11 16:49 foremost 阅读(492) 评论(0) 推荐(0) 编辑

爬虫--总结

摘要： 1.接触过几种爬虫模块 urllib,requests 2.robots协议是什么？ requests模块没有使用硬性的语法对该协议进行生效 scrapy硬性的语法对该协议进行了生效 3、如何处理验证码：云打码平台打码兔 4、掌握几种数据解析的方式正则，xpath，bs4 5、如何爬取动态加载阅读全文

posted @ 2018-12-11 16:24 foremost 阅读(197) 评论(0) 推荐(0) 编辑

2018年12月10日

爬虫--Scrapy-基于RedisSpider实现的分布式爬虫

摘要：爬取网易新闻需求：爬取的是基于文字的新闻数据（国内，国际，军事，航空）先编写基于scrapycrawl 先创建工程 scrapy startproject 58Pro cd 58Pro 新建一个爬虫--基于一个scrapy scrapy genspider 58 www.xxx.com 先把基本阅读全文

posted @ 2018-12-10 18:32 foremost 阅读(1079) 评论(0) 推荐(0) 编辑

爬虫--Scrapy-CrawlSpider&基于CrawlSpide的分布式爬虫

摘要： CrawlSpider 创建工程scrapy startproject crawlSpiderPro cd crawlSpiderPro 创建爬虫文件 scrapy genspider -t crawl chouti dig.chouti.com 基于scrapySpider爬虫文件的和基于spid 阅读全文

posted @ 2018-12-10 11:59 foremost 阅读(593) 评论(0) 推荐(0) 编辑

2018年12月9日

爬虫--Scrapy-参数等级和请求传参

摘要：日志等级如何让终端显示错误信息在settings.py中配置请求传参创建moviePro工程 scrapy startproject moviePro cd moviePro scrapy genspider movie www.id97.com 电影名称和类型在一页电影的其他详情在另外一阅读全文

posted @ 2018-12-09 21:44 foremost 阅读(2846) 评论(0) 推荐(0) 编辑

Scrapy框架--代理和cookie

摘要：如何发起post请求？简单测试：在爬虫文件中在settings配置然后执行： cookie:豆瓣网个人登录，获取该用户个人主页这个二级页面的页面数据。先创建一个工程doubanPro cd 到创建的目录下创建爬虫文件 1. 在命令行下 cd 进入工程所在文件夹 2.scrapy gens 阅读全文

posted @ 2018-12-09 17:27 foremost 阅读(290) 评论(0) 推荐(0) 编辑

爬虫--Scrapy-持久化存储操作2

摘要： 1、管道的高级操作将爬取到的数据值分别存储到本地磁盘、redis数据库、mysql数据。 qiubai.py pipelines.py 在settings配置打开终端，先进入文件目录先打开redis，mysql服务器再执行如下命令：存本地: 存redis：存mysql 测试成功多个url 阅读全文

posted @ 2018-12-09 11:36 foremost 阅读(351) 评论(0) 推荐(0) 编辑

2018年12月7日

爬虫--Scrapy-持久化存储操作

摘要：总体概况磁盘文件基于终端指令基于管道爬虫文件代码： qiubai.py 1、将解析到的页面数据存储到items对象在items.py 中封装两个属性对象 3、在管道文件中编写代码完成数据存储的操作 4、在配置文件settings.py中开启管道操作在命令行执行程序第三步有个bug每次调阅读全文

posted @ 2018-12-07 21:03 foremost 阅读(771) 评论(0) 推荐(0) 编辑

2018年12月6日

爬虫--Scrapy框架课程介绍

摘要： Scrapy框架课程介绍：一scrapy框架的简介和基础使用 a) 概念：为了爬取网站数据而编写的一款应用框架，出名，强大。所谓的框架其实就是一个集成了相应的功能且具有很强通用性的项目模板。（高性能的异步下载，解析，持久化……） b) 安装： i. linux mac os:pip install 阅读全文

posted @ 2018-12-06 19:03 foremost 阅读(387) 评论(0) 推荐(0) 编辑

动态爬取豆瓣电影中“更多”电影详情数据

摘要：动态爬取豆瓣电影中“更多”电影详情数据开发中经验总结： 1、设置多个代理ip每次随机选取 2、在测试阶段建议先把数据下载到本地，在本地取保存的数据，避免被反爬处理，，导致因访问频繁无法进行数据处理 3、本次数据解析采用： 4、加深了对Beautiful Soup对象类型 Tag对象的理解 http 阅读全文

posted @ 2018-12-06 14:34 foremost 阅读(702) 评论(0) 推荐(0) 编辑