摘要: Python从零开始写爬虫 3 获取需要抓取的URLs 在一节中,我们学习了如果通过正则表达式来获取HTML里面指点便签的内容, 那么我今天就来看看实际的效果.在抓取小说之前, 我们需要知道小说有哪些章节,以及这些章节的顺序. 刚开始我是通过获取一个章节, 然后从这个章节获取下个章节的链接, 然后发 阅读全文
posted @ 2020-02-08 16:47 CYHua 阅读(478) 评论(0) 推荐(0) 编辑
摘要: 上一篇博客Python从零开始写爬虫-1 使用Python发送http请求并获得网页源代码中我们已经学习到如何从网站上获取html的源码, 那么今天我们就来学习如何使用正则表达式来解析HTML.同样以Python的Api文档为例. 正则表达式: 又称规则表达式。(英语:Regular Express 阅读全文
posted @ 2020-02-07 19:41 CYHua 阅读(709) 评论(0) 推荐(0) 编辑
摘要: 写爬虫, 首先需要了解爬虫是什么?网络爬虫,是自动从网络下载自己需要的网页,进行处理并保存的工具.Python从零开始写爬虫将从零开始写爬虫,最终该爬虫能够从笔趣阁(http://www.biquger.com/)爬取小说. 竟然爬虫是自动下载自己需要的网页, 那么Python如何获取网页呢?Pyt 阅读全文
posted @ 2020-02-06 20:52 CYHua 阅读(1678) 评论(0) 推荐(0) 编辑