摘要: 目标地址: http://www.sina.com.cn/ 查看源代码,分析: 1 整个分类 在 div main-nav 里边包含 2 分组情况:1,4一组 、 2,3一组 、 5 一组 、6一组 实现源码: 以上代码,还可以继续优化,比如 xpath 的模糊匹配。可以把前四组合为一个,继续学习! 阅读全文
posted @ 2018-04-14 19:16 依然范儿特西 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 在玩爬虫的时候,针对https ,需要单独处理。不然就会报错: 解决办法:引入 ssl 模块即可 核心代码 完整代码如下: 结果: 阅读全文
posted @ 2018-04-14 16:00 依然范儿特西 阅读(3891) 评论(1) 推荐(0) 编辑