1.爬虫基础

目录

环境

  • 工具:pycharm
  • python解释器
  • requests库
  • lxml
  • 数据库连接pymysql

静态网页爬虫基础

  • 首先你要爬数据那么就需要个url链接
  • hearders = {...}模拟浏览器访问
# 这里的字典:不能有空格
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36"}  
# 请求
request_get = requests.get(url, headers = headers)
#请求获得文本
text = request_get.text
# 转化为etree.html
html = etree.HTML(text)

xpath

学习xpath语言

pymysql

posted @ 2023-06-20 21:42  壹剑霜寒十四州  阅读(5)  评论(0编辑  收藏  举报