2019年11月21日

python爬虫案例:使用XPath爬网页图片

摘要: 用XPath来做一个简单的爬虫,尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地。 效果: 阅读全文

posted @ 2019-11-21 21:52 LoaderMan 阅读(2694) 评论(0) 推荐(0) 编辑

python爬虫中XPath和lxml解析库

摘要: 什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 W3School官 阅读全文

posted @ 2019-11-21 20:12 LoaderMan 阅读(1052) 评论(0) 推荐(1) 编辑

案例:使用正则表达式的爬虫

摘要: 用正则表达式进行对爬取到的全部网页源代码进行筛选。 网站: https://www.cnblogs.com/loaderman/default.html?page=1 打开之后,不难看到里面一个一个灰常有内涵的段子,当你进行翻页的时候,注意url地址的变化: 第一页url: https://www. 阅读全文

posted @ 2019-11-21 20:03 LoaderMan 阅读(1352) 评论(0) 推荐(0) 编辑

导航