上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 34 下一页
摘要: 作业需求: 爬取北京全站租房信息 爬取全站用基于crawlspider建立爬虫文件 对北京出租下的70页信息进行爬取: 分析页码网页 https://bj.58.com/chuzu/pn2 bj代表北京 包括四种类型的房源:个人房源;经纪人;安选房源;品牌公寓 个人房源: 经纪人: 安选房源: 品牌 阅读全文
posted @ 2018-12-11 16:49 foremost 阅读(492) 评论(0) 推荐(0) 编辑
摘要: 1.接触过几种爬虫模块 urllib,requests 2.robots协议是什么? requests模块没有使用硬性的语法对该协议进行生效 scrapy硬性的语法对该协议进行了生效 3、如何处理验证码: 云打码平台 打码兔 4、掌握几种数据解析的方式 正则,xpath,bs4 5、如何爬取动态加载 阅读全文
posted @ 2018-12-11 16:24 foremost 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 爬取网易新闻 需求:爬取的是基于文字的新闻数据(国内,国际,军事,航空) 先编写基于scrapycrawl 先创建工程 scrapy startproject 58Pro cd 58Pro 新建一个爬虫--基于一个scrapy scrapy genspider 58 www.xxx.com 先把基本 阅读全文
posted @ 2018-12-10 18:32 foremost 阅读(1079) 评论(0) 推荐(0) 编辑
摘要: CrawlSpider 创建工程scrapy startproject crawlSpiderPro cd crawlSpiderPro 创建爬虫文件 scrapy genspider -t crawl chouti dig.chouti.com 基于scrapySpider爬虫文件的和基于spid 阅读全文
posted @ 2018-12-10 11:59 foremost 阅读(593) 评论(0) 推荐(0) 编辑
摘要: 日志等级 如何让终端显示错误信息 在settings.py中配置 请求传参 创建moviePro工程 scrapy startproject moviePro cd moviePro scrapy genspider movie www.id97.com 电影名称和类型在一页 电影的其他详情在另外一 阅读全文
posted @ 2018-12-09 21:44 foremost 阅读(2846) 评论(0) 推荐(0) 编辑
摘要: 如何发起post请求? 简单测试: 在爬虫文件中 在settings配置 然后执行: cookie:豆瓣网个人登录,获取该用户个人主页这个二级页面的页面数据。 先创建一个工程doubanPro cd 到创建的目录下 创建爬虫文件 1. 在命令行下 cd 进入工程所在文件夹 2.scrapy gens 阅读全文
posted @ 2018-12-09 17:27 foremost 阅读(290) 评论(0) 推荐(0) 编辑
摘要: 1、管道的高级操作 将爬取到的数据值分别存储到本地磁盘、redis数据库、mysql数据。 qiubai.py pipelines.py 在settings配置 打开终端,先进入文件目录 先打开redis,mysql服务器再执行如下命令: 存本地: 存redis: 存mysql 测试成功 多个url 阅读全文
posted @ 2018-12-09 11:36 foremost 阅读(351) 评论(0) 推荐(0) 编辑
摘要: 总体概况 磁盘文件 基于终端指令 基于管道 爬虫文件代码: qiubai.py 1、将解析到的页面数据存储到items对象 在items.py 中封装两个属性对象 3、在管道文件中编写代码完成数据存储的操作 4、在配置文件settings.py中开启管道操作 在命令行执行程序 第三步有个bug每次调 阅读全文
posted @ 2018-12-07 21:03 foremost 阅读(771) 评论(0) 推荐(0) 编辑
摘要: Scrapy框架课程介绍: 一scrapy框架的简介和基础使用 a) 概念:为了爬取网站数据而编写的一款应用框架,出名,强大。所谓的框架其实就是一个集成了相应的功能且具有很强通用性的项目模板。(高性能的异步下载,解析,持久化……) b) 安装: i. linux mac os:pip install 阅读全文
posted @ 2018-12-06 19:03 foremost 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 动态爬取豆瓣电影中“更多”电影详情数据 开发中经验总结: 1、设置多个代理ip每次随机选取 2、在测试阶段建议先把数据下载到本地,在本地取保存的数据,避免被反爬处理,,导致因访问频繁无法进行数据处理 3、本次数据解析采用: 4、加深了对Beautiful Soup对象类型 Tag对象的理解 http 阅读全文
posted @ 2018-12-06 14:34 foremost 阅读(702) 评论(0) 推荐(0) 编辑
上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 34 下一页