python爬虫
根据特定的需求,抓取指定的数据
代替浏览器上网
网页的特点:
1、网页都有自己唯一的URL
2、网页内容都是html结构
3、使用的都是http或https协议
爬虫步骤:
1、给一个URL
2、写程序,模拟浏览器访问URL
3、解析内容,提取数据
环境:
windows环境、linux环境
python3.6 64位
使用的工具:
1、库
urllib \ requests \ bs4
2、解析网页内容的知识
正则表达式、bs4、xpath、jsonpath
3、涉及到动态html
selenium+phantomjs、chromeheadless
4、scrapy框架
5、scrapy-redis组件
6、涉及到爬虫-反爬虫-反反爬虫的一些内容
UA、代理、验证码、动态页面等
http协议