五杀摇滚小拉夫

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 19 下一页

2019年3月28日

摘要: 3.检测是否安装成功 4.pycahrm中配置新项目 阅读全文
posted @ 2019-03-28 21:30 五杀摇滚小拉夫 阅读(211) 评论(0) 推荐(0) 编辑

2019年2月2日

摘要: 前期开题报告已经准备好,剩下的只是把论文所需支持的文档及论文模板的编写,对毕业论文各些小细节的整理。一.论文所需代码自己也是整理好了,用的就是之前在公司上班时期所做的项目。1.项目目的及内容:采集各大网站的数据信息,网站大概90多个,采集量百万条起。2.各大网站都有不一定的反爬机制,需要根据不同的规则去应对网站。3.难点: -应对不同的反爬,解决网站出现的bug -设置单线程配置定时... 阅读全文
posted @ 2019-02-02 22:10 五杀摇滚小拉夫 阅读(123) 评论(0) 推荐(0) 编辑

2018年12月25日

摘要: Engine:引擎,处理整个系统的数据流处理、触发事务,是整个框架的核心。 Item:项目,定义爬虫结果的数据结构,爬去的数据被赋值为该item对象。 Scheduler:调度器,接受引擎发过来的请求并将其加入队列中,在引擎再次请求时将请求提供给引擎。 Downloader:下载器,下载网页内容,并 阅读全文
posted @ 2018-12-25 17:56 五杀摇滚小拉夫 阅读(148) 评论(0) 推荐(0) 编辑

2018年12月22日

摘要: 开题报告:爬虫监控造价网站并采集信息价数据课题的目的、意义以及和本课题有关的国内外现状分析: 1.目的: 本课题主要目的是设计爬虫程序监控网站信息数据,若网站数据更新则做邮件通知,再调度执行对应的爬虫项目采集网站数据。 2.意义: 解决工作中人工手动对网站监控的任务,由于人工去对网站更新查询比对即耗时又耗力而且还达不到很好的效果,若监控量小的话 还好解决,但是一旦需要监... 阅读全文
posted @ 2018-12-22 14:07 五杀摇滚小拉夫 阅读(295) 评论(0) 推荐(0) 编辑

摘要: pandas是用于数据清洗的库,安装配置pandas需要配置许多依赖的库,而且安装十分麻烦。解决方法:可以用Anaconda为开发环境,Anaconda内置了许多有关数据清洗和算法的库。1.安装pandas首先需要安装Numpy和python-dateutil(可以直接在控制控制台pip安装),然后再配置pandas。2.安装好Anaconda后,启用命令行窗口输入 jupyter notebo... 阅读全文
posted @ 2018-12-22 13:11 五杀摇滚小拉夫 阅读(271) 评论(0) 推荐(0) 编辑

2018年12月4日

摘要: 今天又捋一下思路,在兼职,也没时间去坐下来仔细思考分析问题:1.首先获取分类,比如先获取美食,再划分其分类,分类里有火锅、蛋糕、小吃快餐等等后面都显示了共有多少个搜索结果。 2.获取完分类id也知道了其总的结果个数,然后再配置请求data参数里的offset,其offset每次加载15条数据,可以根据获取的总个数n去算一共m页,再做循环请求m次。3.没请求一次数据就会获取15条数据,是jso... 阅读全文
posted @ 2018-12-04 20:59 五杀摇滚小拉夫 阅读(329) 评论(0) 推荐(0) 编辑

2018年12月3日

摘要: 请求头设置: 参数设置: 多拖动滑动条,发现 offset发生变化,每次刷新加载15条数据。但是这里呢,还是出现了一些问题,还没有开始爬数据,只是简单地测试加载数据就出现了验证码的问题, 因此要像爬房产信息那样,虽然数据有很多,但是只给你返回100页数据,要想获取全部数据就要进行分类抓,不能抓取全部 阅读全文
posted @ 2018-12-03 22:43 五杀摇滚小拉夫 阅读(359) 评论(0) 推荐(0) 编辑

摘要: 2.在分析下控制台情况: 阅读全文
posted @ 2018-12-03 00:24 五杀摇滚小拉夫 阅读(2193) 评论(0) 推荐(0) 编辑

2018年12月2日

摘要: 1.Socket 是对 TCP/IP 协议族的一种封装,是应用层与TCP/IP协议族通信的中间软件抽象层。从设计模式的角度看来,Socket其实就是一个门面模式,它把复杂的TCP/IP协议族隐藏在Socket接口后面,对用户来说,一组简单的接口就是全部,让Socket去组织数据,以符合指定的协议。 阅读全文
posted @ 2018-12-02 19:31 五杀摇滚小拉夫 阅读(326) 评论(0) 推荐(0) 编辑

摘要: MySQL默认端口 3306 Redis默认端口 6379 MongoDB默认端口 27017 django端口 8000 flask端口 5000 pyspider服务端口 5000(由flask开发) gerapy服务端口 8000(由django开发) scrapyd服务端口 6800 ipython notebook 默认端口 8888 HTTP默认端口 80 HTTPS服务默认端口44... 阅读全文
posted @ 2018-12-02 09:45 五杀摇滚小拉夫 阅读(380) 评论(0) 推荐(0) 编辑

上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 19 下一页