Norni - 博客园

2020年5月21日

爬取斗鱼房间的信息

摘要： >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 说明：仅学习参考，如有侵权，将立即删除此内容 <<<<<<<<<<<<<<<<< 阅读全文

posted @ 2020-05-21 13:37 Norni 阅读(162) 评论(0) 推荐(0) 编辑

2020年5月19日

爬取百度贴吧帖子页内容

摘要： >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 说明：仅学习参考，如有侵权，将立即删除此内容 <<<<<<<<<<<<<<<<< 阅读全文

posted @ 2020-05-19 12:22 Norni 阅读(506) 评论(0) 推荐(0) 编辑

2020年5月17日

爬虫通过re或bs3等提取数据时，一定要判空

摘要：提取数据后要记得判空。否则当数据为空的时候，会发生list index out of range的异常。阅读全文

posted @ 2020-05-17 18:31 Norni 阅读(220) 评论(0) 推荐(0) 编辑

2020年5月15日

爬虫作业时寻找post的地址和js分析

摘要： 1、寻找post的地址 1.1 使用chrome抓包工具进入`https://www.renren.com` 检查网页源代码定位到form标签下（1）在form表单中寻找action对应的url地址，注意：不是所有的网站的action都有url地址，有的对应的是js （2）post的数据是in 阅读全文

posted @ 2020-05-15 00:01 Norni 阅读(928) 评论(0) 推荐(1) 编辑

2020年5月14日

十五、cookies和session的使用

摘要： 1、cookie和session的区别（1）cookie数据存放在客户的浏览器上，session数据放在服务器上。（2）cookie不是很安全，别人可以分析存放在本地的cookie并进行cookie欺骗。（3）session会在一定时间内保存在服务器上。当访问增多，会比较占用服务器的性能。（阅读全文

posted @ 2020-05-14 17:36 Norni 阅读(176) 评论(0) 推荐(0) 编辑

2020年5月13日

爬取腾讯社招职位信息

摘要：腾讯社招职位（多线程+线程池） >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> version_1 声明：本内容仅学习参考，如有侵权，将立即删除 <<<<<<<<<<<<<<<<<<<<&l 阅读全文

posted @ 2020-05-13 21:37 Norni 阅读(513) 评论(0) 推荐(0) 编辑

4、python的进程守护和线程守护

摘要：设定线程（进程）的daemon标志，当daemon=True表示守护，当daemon=False表示非守护（默认）１、进程守护守护进程会在主进程代码执行结束后就终止守护进程内无法再开启子进程，否则会抛出异常：｀AssertionError:daemonic processes are not 阅读全文

posted @ 2020-05-13 14:55 Norni 阅读(717) 评论(0) 推荐(0) 编辑

2020年5月12日

十一、Scrapy的Settings

摘要： Scrapy设置（settings）提供了定制Scrapy组件的方法，可以控制包括核心(core)，插件(extension)，pipeline以及spider组件。官方文档：https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.h 阅读全文

posted @ 2020-05-12 16:33 Norni 阅读(151) 评论(0) 推荐(0) 编辑

十、scrapy中的Downloader Middlewares

摘要： 1、通常防止爬虫被反主要有以下几个策略（1）动态设置User-Agent（随机切换User-Agent，模拟不同用户的浏览器信息）（2）禁用Cookies（即不启用cookies middleware，不向Server发送cookies，有些网站通过cookie的使用发现爬虫行为）（通过COOK 阅读全文

posted @ 2020-05-12 16:06 Norni 阅读(704) 评论(0) 推荐(0) 编辑

九、在Scrapy中模拟登陆

摘要：使用FormRequest.from_response()方法模拟用户登录官方参考文档：https://docs.pythontab.com/scrapy/scrapy0.24/topics/request-response.html#topics-request-response-ref-req 阅读全文

posted @ 2020-05-12 14:22 Norni 阅读(278) 评论(0) 推荐(0) 编辑

公告