2019 年 11月 21 日随笔档案 - LoaderMan

python爬虫案例：使用XPath爬网页图片

摘要：用XPath来做一个简单的爬虫，尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。效果：阅读全文

posted @ 2019-11-21 21:52 LoaderMan 阅读(2715) 评论(0) 推荐(0) 编辑

python爬虫中XPath和lxml解析库

摘要：什么是XML XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据，而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 W3School官阅读全文

posted @ 2019-11-21 20:12 LoaderMan 阅读(1056) 评论(0) 推荐(1) 编辑

案例：使用正则表达式的爬虫

摘要：用正则表达式进行对爬取到的全部网页源代码进行筛选。网站： https://www.cnblogs.com/loaderman/default.html?page=1 打开之后，不难看到里面一个一个灰常有内涵的段子，当你进行翻页的时候，注意url地址的变化：第一页url: https://www. 阅读全文

posted @ 2019-11-21 20:03 LoaderMan 阅读(1374) 评论(0) 推荐(0) 编辑

python爬虫案例：使用XPath爬网页图片

python爬虫中XPath和lxml解析库

案例：使用正则表达式的爬虫

导航