2018 年 6月 12 日随笔档案 - 公众号python学习开发

2018年6月12日

摘要：调度模块也就是对之前所以的模块的一个调度，作为一个流水的入口。下面的代码的获取数据部分暂时没有写，细节部分在实际开发中，要根据要求再定义，这里说的是使用方法阅读全文

posted @ 2018-06-12 22:19 公众号python学习开发阅读(928) 评论(0) 推荐(0) 编辑

摘要：数据存储模块的话，目前我这用的比较多的是存储到mysql，所以下面的这个例子也是保存到mysql，用到了ORM映射的SQLAlchemy ,(ORM:Object-Relational Mapping，把关系数据库的表结构映射到对象上)，使用create_engine()来初始化数据库连接。 SQL 阅读全文

posted @ 2018-06-12 21:56 公众号python学习开发阅读(977) 评论(0) 推荐(0) 编辑

python爬虫模块之HTML解析模块

摘要：这个就比较简单了没有什么好强调的，如果返回的json 就是直接按照键值取，如果是网页就是用lxml模块的html进行xpath解析。阅读全文

posted @ 2018-06-12 21:23 公众号python学习开发阅读(265) 评论(0) 推荐(0) 编辑

python爬虫模块之HTML下载模块

摘要： HTML下载模块该模块主要是根据提供的url进行下载对应url的网页内容。使用模块requets-HTML，加入重试逻辑以及设定最大重试次数，同时限制访问时间，防止长时间未响应造成程序假死现象。根据返回的状态码进行判断如果访问成功则返回源码，否则开始重试，如果出现异常也是进行重试操作。阅读全文

posted @ 2018-06-12 21:08 公众号python学习开发阅读(491) 评论(0) 推荐(0) 编辑

python爬虫模块之URL管理器模块

摘要： URL管理器模块一般是用来维护爬取的url和未爬取的url已经新添加的url的，如果队列中已经存在了当前爬取的url了就不需要再重复爬取了，另外防止造成一个死循环。举个例子我爬www.baidu.com 其中我抓取的列表中有music.baidu.om，然后我再继续抓取该页面的所有链接，但是其中阅读全文

posted @ 2018-06-12 20:16 公众号python学习开发阅读(492) 评论(0) 推荐(0) 编辑

python爬虫面试总结

摘要： 1.爬虫有哪些模块？答： URL管理模块：维护已经爬取的URL集合和未爬取的URL集合，并提供获取新URL链接的接口 HTML下载模块：从URL管理器中获取未爬取的URL链接并下载HTML网页 HTML解析模块：从HTML下载器下载的网页内容解析出新的URL交给URL管理器，解析出有效数据给到数据阅读全文

posted @ 2018-06-12 19:39 公众号python学习开发阅读(288) 评论(0) 推荐(0) 编辑

Android 开发之避免被第三方使用代理抓包

摘要： 2021-08-10更新：最新方案使用charles+postern vpn的形式抓包在手机上设置代理时，使用VPN来将流量导出到抓包软件上，而不是通过给WIFI设置HTTP代理的方式。使用VPN可以同时抓到Http(s)和Socket的包，且不管其来自Java层还是so层。推荐代理软件Post 阅读全文

posted @ 2018-06-12 19:13 公众号python学习开发阅读(7971) 评论(0) 推荐(0) 编辑

一起来学python

android逆向

公告