摘要:
为什么要学习requests,而不是urllib? 1.requests的底层实现就是urllib。 2.requests在python2和python3中通用,方法完全一样。 3.requests简单易用。 4.requests能够自动帮我们解压(gzip压缩等)网页内容。 在写爬虫的过程中,一定 阅读全文
摘要:
通用爬虫与聚焦爬虫: 通用爬虫:搜索引擎用的爬虫系统1)目标:把互联网的网页下载下来,放到本地服务器形成备份,再对这些网页做相关处理(提取关键字,去掉广告),最后提供一个用户检索接口。2)抓取流程:首先选取一部分已有的URL,把这些URL放到待爬取队列。从队列里取出这些URL,然后解析DNS得到主机 阅读全文