摘要: 假设有如下xml在/home/abc.xml位置 我们要查找其中id=1的节点B的名称,可以利用lxml中xpath来查找: 阅读全文
posted @ 2016-07-27 11:23 匡子语 阅读(7698) 评论(0) 推荐(0) 编辑
摘要: 这个爬虫的作用是,对于一个给定的url,查找页面里面所有的url连接并依次贪婪爬取 主要需要注意的地方: 1.lxml.html.iterlinks() 可以实现对页面所有url的查找 2.获取页面要设置超时,否则遇到没有响应的页面,代码容易卡死 3.对所有异常的捕获 4.广度优先搜索实现 具体代码 阅读全文
posted @ 2016-07-27 09:48 匡子语 阅读(544) 评论(0) 推荐(0) 编辑