摘要: # 1.定位到来电分类分区 # 2. 提取子页面的连接地址 child_href1 # 3. 在子页面提取想要的数据 # 4. 再定位到详细来电,进入二重子页面 # 5. 提取二重子页面连接地址 child_href2 # 6. 在二重子页面(来电情况)里提取想要的数据 代码如下: 1 # 1.定位 阅读全文
posted @ 2022-10-28 22:57 slowlydance2me 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 1.使用元素定位:找到一个模块的分区,复制它完整的Xpath 2. 修饰并利用循环得出每一个模块 import requests from lxml import etree # 获取源码 url = "https://chengdu.zbj.com/search/service/?kw=saas" 阅读全文
posted @ 2022-10-28 20:40 slowlydance2me 阅读(252) 评论(0) 推荐(0) 编辑
摘要: xpath 是在XML文档中搜索内容的一门语言 html是xml的一个子集 xml代码示例 """ <book> <id>1</id> <name>野花遍地香</name> <price>1.23</price> <author> <nick>周大枪</nick> <nick>周芷若</nick> 阅读全文
posted @ 2022-10-28 19:57 slowlydance2me 阅读(27) 评论(0) 推荐(0) 编辑
摘要: # 1.拿到主页面主代码,拿到子页面连接地址,href # 2.通过href拿到子页面内容,从子页面中找到图片的下载地址 img -> src # 3. 下载图片 import requests from bs4 import BeautifulSoup import time import url 阅读全文
posted @ 2022-10-28 19:30 slowlydance2me 阅读(109) 评论(0) 推荐(0) 编辑
摘要: Bs4 bs4全称:beautifulsoup4,意思为美丽的汤版本4 可以在HTML或XML文件中提取数据的网页信息提取库 与re和xpath模块的区别: re模块:使用起来过于麻烦且阅读性不好 xpath模块:需要使用一些特定的语法 bs4模块:只需要记住一些方法如:find()、find_al 阅读全文
posted @ 2022-10-28 13:33 slowlydance2me 阅读(88) 评论(0) 推荐(0) 编辑