总结篇2-python进阶
学了python基础后,就开始学习python的3大框架了
Django,Flask,Tornado,
曾经我去看python开发岗位时专门研究了这三个的区别,django和flask,完整的写了两个简单的项目,商城和租房,tornado就看个入门。
分别的话就引用一下好了,https://www.jianshu.com/p/0f8575f9b973
总的来说,django是重量级框架,什么都有,flask是轻量级的,数据库,文件,邮件等都需要安装扩展模块,所以也更加灵活,tornado极大提升性能,因为用了epoll多路复用,线程不会堵塞。
关于io多路复用 https://www.cnblogs.com/yanguhung/p/10145755.html
框架之后是python爬虫
最简单的爬取百度图片,到后面用scapy框架爬取,原理我总结为二:
1.selenium式模拟界面操作获取界面元素,速度慢但是安全
2.构造请求接口,模拟发出请求,获取响应数据。不安全,容易被反爬虫,而且很多用js把参数给你加密一下,你就得花时间学习js逆向,破解加密方法
关于反爬虫,ip代理,请求频次,请求头更改都是最基本的,最难搞定的还是验证码,尤其是12306的验证码,我自己有时候都答错,网上有12306的抢票程序搞定了验证码,用的是机器学习,专门构建了一个识别库。