04 2024 档案

摘要:爬虫2(页面解析和数据提取) 处理HTML文件,常用Xpath,先将HTML文件转换成XML文档,然后用Xpath查找HTML节点或元素。 一、HTML与XML 二、XPath 1、XPath路径表达式 三、Lxml库 html = etree.HTML(text) # 将字符串转换成HTML格式 阅读全文
posted @ 2024-04-26 11:58 同淋雪 阅读(25) 评论(0) 推荐(0) 编辑
摘要:爬虫 1(入门基础) 一、什么是爬虫 通过编写代码,模拟正常用户使用浏览器的过程,使其能够在互联网自动进行数据抓取 二、HTTP协议 三、URL是什么 URL:资源定位符,是用于完整地描述Internet上网页和其他资源的地址的一种标识方法 四、Header请求头 五、请求头参数的含义 六、requ 阅读全文
posted @ 2024-04-26 11:55 同淋雪 阅读(8) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示