1.爬虫基础
目录
环境
- 工具:pycharm
- python解释器
- requests库
- lxml
- 数据库连接pymysql
静态网页爬虫基础
- 首先你要爬数据那么就需要个url链接
- hearders = {...}模拟浏览器访问
# 这里的字典:不能有空格
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36"}
# 请求
request_get = requests.get(url, headers = headers)
#请求获得文本
text = request_get.text
# 转化为etree.html
html = etree.HTML(text)
xpath
学习xpath语言
pymysql
用心做~