五杀摇滚小拉夫

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
  188 随笔 :: 0 文章 :: 19 评论 :: 99707 阅读

12 2018 档案

摘要:Engine:引擎,处理整个系统的数据流处理、触发事务,是整个框架的核心。 Item:项目,定义爬虫结果的数据结构,爬去的数据被赋值为该item对象。 Scheduler:调度器,接受引擎发过来的请求并将其加入队列中,在引擎再次请求时将请求提供给引擎。 Downloader:下载器,下载网页内容,并 阅读全文
posted @ 2018-12-25 17:56 五杀摇滚小拉夫 阅读(151) 评论(0) 推荐(0) 编辑

摘要:开题报告:爬虫监控造价网站并采集信息价数据课题的目的、意义以及和本课题有关的国内外现状分析: 1.目的: 本课题主要目的是设计爬虫程序监控网站信息数据,若网站数据更新则做邮件通知,再调度执行对应的爬虫项目采集网站数据。 2.意义: 解决工作中人工手动对网站监控的任务,由于人工去对网站更新查询比对即耗时又耗力而且还达不到很好的效果,若监控量小的话 还好解决,但是一旦需要监... 阅读全文
posted @ 2018-12-22 14:07 五杀摇滚小拉夫 阅读(301) 评论(0) 推荐(0) 编辑

摘要:pandas是用于数据清洗的库,安装配置pandas需要配置许多依赖的库,而且安装十分麻烦。解决方法:可以用Anaconda为开发环境,Anaconda内置了许多有关数据清洗和算法的库。1.安装pandas首先需要安装Numpy和python-dateutil(可以直接在控制控制台pip安装),然后再配置pandas。2.安装好Anaconda后,启用命令行窗口输入 jupyter notebo... 阅读全文
posted @ 2018-12-22 13:11 五杀摇滚小拉夫 阅读(280) 评论(0) 推荐(0) 编辑

摘要:今天又捋一下思路,在兼职,也没时间去坐下来仔细思考分析问题:1.首先获取分类,比如先获取美食,再划分其分类,分类里有火锅、蛋糕、小吃快餐等等后面都显示了共有多少个搜索结果。 2.获取完分类id也知道了其总的结果个数,然后再配置请求data参数里的offset,其offset每次加载15条数据,可以根据获取的总个数n去算一共m页,再做循环请求m次。3.没请求一次数据就会获取15条数据,是jso... 阅读全文
posted @ 2018-12-04 20:59 五杀摇滚小拉夫 阅读(336) 评论(0) 推荐(0) 编辑

摘要:请求头设置: 参数设置: 多拖动滑动条,发现 offset发生变化,每次刷新加载15条数据。但是这里呢,还是出现了一些问题,还没有开始爬数据,只是简单地测试加载数据就出现了验证码的问题, 因此要像爬房产信息那样,虽然数据有很多,但是只给你返回100页数据,要想获取全部数据就要进行分类抓,不能抓取全部 阅读全文
posted @ 2018-12-03 22:43 五杀摇滚小拉夫 阅读(370) 评论(0) 推荐(0) 编辑

摘要:2.在分析下控制台情况: 阅读全文
posted @ 2018-12-03 00:24 五杀摇滚小拉夫 阅读(2247) 评论(0) 推荐(0) 编辑

摘要:1.Socket 是对 TCP/IP 协议族的一种封装,是应用层与TCP/IP协议族通信的中间软件抽象层。从设计模式的角度看来,Socket其实就是一个门面模式,它把复杂的TCP/IP协议族隐藏在Socket接口后面,对用户来说,一组简单的接口就是全部,让Socket去组织数据,以符合指定的协议。 阅读全文
posted @ 2018-12-02 19:31 五杀摇滚小拉夫 阅读(334) 评论(0) 推荐(0) 编辑

摘要:MySQL默认端口 3306 Redis默认端口 6379 MongoDB默认端口 27017 django端口 8000 flask端口 5000 pyspider服务端口 5000(由flask开发) gerapy服务端口 8000(由django开发) scrapyd服务端口 6800 ipython notebook 默认端口 8888 HTTP默认端口 80 HTTPS服务默认端口44... 阅读全文
posted @ 2018-12-02 09:45 五杀摇滚小拉夫 阅读(388) 评论(0) 推荐(0) 编辑

摘要:1.通用爬虫:搜索引擎用的爬虫系统。搜索引擎和供应商提供的爬虫。 通用爬虫要遵循规则:Robots协议 通用爬虫工作流程: 爬取网页》存储数据》内容处理》提供检索 通用爬虫缺点: 只能提供和文本相关的内容如html、world、pdf等,不能提供多媒体文件如音乐、图片、视频和二进制文件(脚本、程序) 提供的结果千篇一律,针对不同领域提供不同内容 不能提供人类语义上的检索 通用爬虫局... 阅读全文
posted @ 2018-12-02 09:40 五杀摇滚小拉夫 阅读(2291) 评论(0) 推荐(0) 编辑

摘要:这是面试中的问题:当时也是没有直接回答出来,还是因为基础知识不扎实。一般Mysql常用的搜索引擎有:ISAM、MylSAM、HEAP、InnoDB、Berkley(BDB)ISAM:执行读取操作的速度很快,而且不占用大量的内存和存储资源。 不足之处是:不支持事务,不支持外键,也不能过容错。MylSAM:在ISAM基础上,提供了ISAM所没有的索引和字段管理的大量功能,还使用了一种表格锁定机制... 阅读全文
posted @ 2018-12-02 09:19 五杀摇滚小拉夫 阅读(1331) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示