上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 28 下一页
摘要: >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 说明:仅学习参考,如有侵权,将立即删除此内容 <<<<<<<<<<<<<<<<< 阅读全文
posted @ 2020-05-21 13:37 Norni 阅读(162) 评论(0) 推荐(0) 编辑
摘要: >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 说明:仅学习参考,如有侵权,将立即删除此内容 <<<<<<<<<<<<<<<<< 阅读全文
posted @ 2020-05-19 12:22 Norni 阅读(506) 评论(0) 推荐(0) 编辑
摘要: 提取数据后要记得判空。否则当数据为空的时候,会发生list index out of range的异常。 阅读全文
posted @ 2020-05-17 18:31 Norni 阅读(220) 评论(0) 推荐(0) 编辑
摘要: 1、寻找post的地址 1.1 使用chrome抓包工具 进入`https://www.renren.com` 检查网页源代码 定位到form标签下 (1)在form表单中寻找action对应的url地址,注意:不是所有的网站的action都有url地址,有的对应的是js (2)post的数据是in 阅读全文
posted @ 2020-05-15 00:01 Norni 阅读(928) 评论(0) 推荐(1) 编辑
摘要: 1、cookie和session的区别 (1)cookie数据存放在客户的浏览器上,session数据放在服务器上。 (2)cookie不是很安全,别人可以分析存放在本地的cookie并进行cookie欺骗。 (3)session会在一定时间内保存在服务器上。当访问增多,会比较占用服务器的性能。 ( 阅读全文
posted @ 2020-05-14 17:36 Norni 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 腾讯社招职位(多线程+线程池) >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> version_1 声明:本内容仅学习参考,如有侵权,将立即删除 <<<<<<<<<<<<<<<<<<<<&l 阅读全文
posted @ 2020-05-13 21:37 Norni 阅读(513) 评论(0) 推荐(0) 编辑
摘要: 设定线程(进程)的daemon标志,当daemon=True表示守护,当daemon=False表示非守护(默认) 1、进程守护 守护进程会在主进程代码执行结束后就终止 守护进程内无法再开启子进程,否则会抛出异常:`AssertionError:daemonic processes are not 阅读全文
posted @ 2020-05-13 14:55 Norni 阅读(717) 评论(0) 推荐(0) 编辑
摘要: Scrapy设置(settings)提供了定制Scrapy组件的方法,可以控制包括核心(core),插件(extension),pipeline以及spider组件。 官方文档:https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.h 阅读全文
posted @ 2020-05-12 16:33 Norni 阅读(151) 评论(0) 推荐(0) 编辑
摘要: 1、通常防止爬虫被反主要有以下几个策略 (1)动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息) (2)禁用Cookies(即不启用cookies middleware,不向Server发送cookies,有些网站通过cookie的使用发现爬虫行为)(通过COOK 阅读全文
posted @ 2020-05-12 16:06 Norni 阅读(704) 评论(0) 推荐(0) 编辑
摘要: 使用FormRequest.from_response()方法模拟用户登录 官方参考文档:https://docs.pythontab.com/scrapy/scrapy0.24/topics/request-response.html#topics-request-response-ref-req 阅读全文
posted @ 2020-05-12 14:22 Norni 阅读(278) 评论(0) 推荐(0) 编辑
上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 28 下一页