摘要: 之前文章中所介绍的爬虫都是对单个URL进行解析和爬取,url数量少不费时,但是如果我们需要爬取的网页url有成千上万或者更多,那怎么办? 使用for循环对所有的url进行遍历访问? 嗯,想法很好,但是如果url过多,爬取完所有的数据会不会太过于耗时了? 对此我们可以使用并发来对URL进行访问以爬取数 阅读全文
posted @ 2021-09-06 16:57 泽良_小涛 阅读(361) 评论(0) 推荐(0) 编辑
摘要: 之前我们爬取的网页,多是HTML静态生成的内容,直接从HTML源码中就能找到看到的数据和内容,然而并不是所有的网页都是这样的。 有一些网站的内容由前端的JS动态生成,由于呈现在网页上的内容是由JS生成而来,我们能够在浏览器上看得到,但是在HTML源码中却发现不了。比如今日头条: 浏览器呈现的网页如下 阅读全文
posted @ 2021-09-06 14:27 泽良_小涛 阅读(1343) 评论(0) 推荐(0) 编辑