摘要: 之前看的是《Python网络爬虫权威指南》,看到了第三章,进度有些慢,可能是我领悟比较低。本来打算一本一本来,现在觉得变通一下可能比较好,所以想先补一下基础知识。 2.1 HTTP基本原理 2.1.1 URI和URL URI,全称:Uniform Resource Identifier,即统一资源标 阅读全文
posted @ 2019-08-23 17:15 橘子酱ing 阅读(296) 评论(0) 推荐(0) 编辑
摘要: 3.1 遍历单个域名 笔者尝试了三次, 本书源码处给出了运行结果:https://github.com/REMitchell/python-scraping/blob/master/Chapter03-web-crawlers.ipynb 如果你仔细观察那些指向词条页面的链接,会发现它们都有3个共同 阅读全文
posted @ 2019-08-23 10:24 橘子酱ing 阅读(2175) 评论(0) 推荐(0) 编辑