04 2024 档案
摘要:爬虫2(页面解析和数据提取) 处理HTML文件,常用Xpath,先将HTML文件转换成XML文档,然后用Xpath查找HTML节点或元素。 一、HTML与XML 二、XPath 1、XPath路径表达式 三、Lxml库 html = etree.HTML(text) # 将字符串转换成HTML格式
阅读全文
摘要:爬虫 1(入门基础) 一、什么是爬虫 通过编写代码,模拟正常用户使用浏览器的过程,使其能够在互联网自动进行数据抓取 二、HTTP协议 三、URL是什么 URL:资源定位符,是用于完整地描述Internet上网页和其他资源的地址的一种标识方法 四、Header请求头 五、请求头参数的含义 六、requ
阅读全文