摘要: 今天继续学习一些实战爬虫 链接爬虫实战 要求:把一个网页里所有的链接地址提取出来 思路:(1)确定爬取的入口链接 (2)构建提取链接的正则表达式 (3)模拟浏览器爬取网页 (4)根据正则表达式提取链接 (5)过滤掉重复的链接 (6)后续操作 比如我们来获取 http://blog.csdn.net/ 阅读全文
posted @ 2019-01-30 16:34 杨守鹤 阅读(440) 评论(0) 推荐(0) 编辑