摘要:
假设有如下xml在/home/abc.xml位置 我们要查找其中id=1的节点B的名称,可以利用lxml中xpath来查找: 阅读全文
摘要:
这个爬虫的作用是,对于一个给定的url,查找页面里面所有的url连接并依次贪婪爬取 主要需要注意的地方: 1.lxml.html.iterlinks() 可以实现对页面所有url的查找 2.获取页面要设置超时,否则遇到没有响应的页面,代码容易卡死 3.对所有异常的捕获 4.广度优先搜索实现 具体代码 阅读全文