2019年4月14日

摘要: 我之前看了一些关于抓包的文章,还以为猫眼的接口都要通过fiddler去抓包,但是我错了,fiddler出了点问题,后来用夜神模拟器去模拟手机,但是一直抓不到想要的包,于是又上网查,终于看到一篇文章说到开发者模式可以直接切换到手机模式 第一步:进入猫眼官网,找到一部电影,或者直接点开链接https:/ 阅读全文
posted @ 2019-04-14 21:12 佛大老妖 阅读(1433) 评论(1) 推荐(0) 编辑

2019年4月11日

摘要: 我也是刚开始学习数据分析,所以直方图、柱形图、折线图这些也是挺蒙圈的,看视频学学这个花呗模型还不错 阅读全文
posted @ 2019-04-11 22:11 佛大老妖 阅读(949) 评论(0) 推荐(0) 编辑

2019年4月8日

摘要: 一直听说淘宝的反爬很厉害,只爬取数十条数据的话不会有感觉,当破百了就很容易被识别出来 自己试了一下,依旧存在问题,现在提供源码供大家一起学习 阅读全文
posted @ 2019-04-08 21:14 佛大老妖 阅读(1754) 评论(0) 推荐(0) 编辑

2019年4月2日

摘要: 原始URL:https://www.douban.com/ 开发者工具查看XHR,填入错误的账号密码后查看增加的XHR文件获得URL:https://accounts.douban.com/j/mobile/login/basic 并且XHR文件是POST请求,滑下去看到Form Data,里面就是 阅读全文
posted @ 2019-04-02 22:26 佛大老妖 阅读(305) 评论(0) 推荐(0) 编辑
摘要: import requestsfrom lxml import etreeimport reimport os#原网址:https://www.pexels.com/zh-tw/#F12之后选择XHR,然后不断往下滑,可以看到出现了更多的URL,如下# url='https://www.pexels 阅读全文
posted @ 2019-04-02 21:51 佛大老妖 阅读(337) 评论(0) 推荐(0) 编辑

2019年3月31日

摘要: 搞了很多天的不能识别0xe5的错误终于搞定了! 原来是nltk不是最新版本,跟standard版本不一致,我就说嘛,为什么就是不能识别“校”字! 总结:遇到编码错误,首先检查utf-8与gbk能不能,不行的话就byte,再不行就检查某些库的版本! 阅读全文
posted @ 2019-03-31 20:18 佛大老妖 阅读(229) 评论(0) 推荐(0) 编辑

2019年3月25日

摘要: 拉勾网破解反爬虫3月25,爬取广佛深三地的Python爬虫工程师职位信息 阅读全文
posted @ 2019-03-25 18:42 佛大老妖 阅读(2638) 评论(0) 推荐(0) 编辑

2019年3月24日

摘要: 爬取斗图啦的表情包对于入门的同学来说很简单,但是对于小编这种不会多线程的人来说,这是个很好的练习多线程的机会。 由于小编是在读生,所以花了两天的课余时间去做这个程序,最大的困惑就是: 为什么第一天爬取斗图啦每两页就积极拒绝我?这么容易就识别出爬虫了,然后小编就用了代理IP 然鹅,到了第二天,一用代理 阅读全文
posted @ 2019-03-24 19:32 佛大老妖 阅读(182) 评论(0) 推荐(0) 编辑

2019年3月18日

摘要: 1.参考网址:http://www.cnblogs.com/lelexiong/p/9054626.html 参考网址:https://blog.csdn.net/u011958281/article/details/79355693 2.作者按照网上一般流程: 还要点击ignore https t 阅读全文
posted @ 2019-03-18 20:40 佛大老妖 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 刚开始打开页面,按crtl+alt+t进入命令行界面 实例一(1):修改home/hadoop目录下的test.txt文件 cd /home/hadoop/ (进入目录) cat test.txt (cat查看文件内容) sudo chmod a+w test.txt (sudo给当前用户添加临时r 阅读全文
posted @ 2019-03-18 11:03 佛大老妖 阅读(170) 评论(0) 推荐(0) 编辑

导航