摘要: 调度模块也就是对之前所以的模块的一个调度,作为一个流水的入口。 下面的代码的获取数据部分暂时没有写,细节部分在实际开发中,要根据要求再定义,这里说的是使用方法 阅读全文
posted @ 2018-06-12 22:19 公众号python学习开发 阅读(928) 评论(0) 推荐(0) 编辑
摘要: 数据存储模块的话,目前我这用的比较多的是存储到mysql,所以下面的这个例子也是保存到mysql,用到了ORM映射的SQLAlchemy ,(ORM:Object-Relational Mapping,把关系数据库的表结构映射到对象上),使用create_engine()来初始化数据库连接。 SQL 阅读全文
posted @ 2018-06-12 21:56 公众号python学习开发 阅读(977) 评论(0) 推荐(0) 编辑
摘要: 这个就比较简单了没有什么好强调的,如果返回的json 就是直接按照键值取,如果是网页就是用lxml模块的html进行xpath解析。 阅读全文
posted @ 2018-06-12 21:23 公众号python学习开发 阅读(265) 评论(0) 推荐(0) 编辑
摘要: HTML下载模块 该模块主要是根据提供的url进行下载对应url的网页内容。使用模块requets-HTML,加入重试逻辑以及设定最大重试次数,同时限制访问时间,防止长时间未响应造成程序假死现象。 根据返回的状态码进行判断如果访问成功则返回源码,否则开始重试,如果出现异常也是进行重试操作。 阅读全文
posted @ 2018-06-12 21:08 公众号python学习开发 阅读(491) 评论(0) 推荐(0) 编辑
摘要: URL管理器模块 一般是用来维护爬取的url和未爬取的url已经新添加的url的,如果队列中已经存在了当前爬取的url了就不需要再重复爬取了,另外防止造成一个死循环。举个例子 我爬www.baidu.com 其中我抓取的列表中有music.baidu.om,然后我再继续抓取该页面的所有链接,但是其中 阅读全文
posted @ 2018-06-12 20:16 公众号python学习开发 阅读(492) 评论(0) 推荐(0) 编辑
摘要: 1.爬虫有哪些模块? 答: URL管理模块:维护已经爬取的URL集合和未爬取的URL集合,并提供获取新URL链接的接口 HTML下载模块:从URL管理器中获取未爬取的URL链接并下载HTML网页 HTML解析模块:从HTML下载器下载的网页内容解析出新的URL交给URL管理器,解析出有效数据给到数据 阅读全文
posted @ 2018-06-12 19:39 公众号python学习开发 阅读(288) 评论(0) 推荐(0) 编辑
摘要: 2021-08-10更新: 最新方案使用charles+postern vpn的形式抓包 在手机上设置代理时,使用VPN来将流量导出到抓包软件上,而不是通过给WIFI设置HTTP代理的方式。使用VPN可以同时抓到Http(s)和Socket的包,且不管其来自Java层还是so层。推荐代理软件Post 阅读全文
posted @ 2018-06-12 19:13 公众号python学习开发 阅读(7971) 评论(0) 推荐(0) 编辑