04 2024 档案

爬虫-页面解析和数据提取

摘要：爬虫2（页面解析和数据提取）处理HTML文件，常用Xpath，先将HTML文件转换成XML文档，然后用Xpath查找HTML节点或元素。一、HTML与XML 二、XPath 1、XPath路径表达式三、Lxml库 html = etree.HTML(text) # 将字符串转换成HTML格式阅读全文

posted @ 2024-04-26 11:58 同淋雪阅读(55) 评论(0) 推荐(0)

爬虫 -入门基础

摘要：爬虫 1（入门基础）一、什么是爬虫通过编写代码，模拟正常用户使用浏览器的过程，使其能够在互联网自动进行数据抓取二、HTTP协议三、URL是什么 URL：资源定位符，是用于完整地描述Internet上网页和其他资源的地址的一种标识方法四、Header请求头五、请求头参数的含义六、requ 阅读全文

posted @ 2024-04-26 11:55 同淋雪阅读(37) 评论(0) 推荐(0)

凸头统治世界

书山有路勤为径，学海无涯苦做舟

04 2024 档案

公告