摘要:
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 说明:仅学习参考,如有侵权,将立即删除此内容 <<<<<<<<<<<<<<<<< 阅读全文
摘要:
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 说明:仅学习参考,如有侵权,将立即删除此内容 <<<<<<<<<<<<<<<<< 阅读全文
摘要:
提取数据后要记得判空。否则当数据为空的时候,会发生list index out of range的异常。 阅读全文
摘要:
1、寻找post的地址 1.1 使用chrome抓包工具 进入`https://www.renren.com` 检查网页源代码 定位到form标签下 (1)在form表单中寻找action对应的url地址,注意:不是所有的网站的action都有url地址,有的对应的是js (2)post的数据是in 阅读全文
摘要:
1、cookie和session的区别 (1)cookie数据存放在客户的浏览器上,session数据放在服务器上。 (2)cookie不是很安全,别人可以分析存放在本地的cookie并进行cookie欺骗。 (3)session会在一定时间内保存在服务器上。当访问增多,会比较占用服务器的性能。 ( 阅读全文
摘要:
腾讯社招职位(多线程+线程池) >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> version_1 声明:本内容仅学习参考,如有侵权,将立即删除 <<<<<<<<<<<<<<<<<<<<&l 阅读全文
摘要:
设定线程(进程)的daemon标志,当daemon=True表示守护,当daemon=False表示非守护(默认) 1、进程守护 守护进程会在主进程代码执行结束后就终止 守护进程内无法再开启子进程,否则会抛出异常:`AssertionError:daemonic processes are not 阅读全文
摘要:
Scrapy设置(settings)提供了定制Scrapy组件的方法,可以控制包括核心(core),插件(extension),pipeline以及spider组件。 官方文档:https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.h 阅读全文
摘要:
1、通常防止爬虫被反主要有以下几个策略 (1)动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息) (2)禁用Cookies(即不启用cookies middleware,不向Server发送cookies,有些网站通过cookie的使用发现爬虫行为)(通过COOK 阅读全文
摘要:
使用FormRequest.from_response()方法模拟用户登录 官方参考文档:https://docs.pythontab.com/scrapy/scrapy0.24/topics/request-response.html#topics-request-response-ref-req 阅读全文