scrapy中使用LinkExtractor提取链接

le = LinkExtractor(restrict_css='ul.pager li.next')

links = le.extract_links(response)

使用LinkExtractor的过程：

导入LinkExtractor，它是在scrapy中linkextractors中
创建一个Linkextractor对象，使用一个或者多个构造器参数描述提取规则，这里传递给restrict_css参数一个CSS选择器表达式。它描述了下一页链接所在的区域（在li.next下）
调用LinkExtractor对象的extract_links方法传入一个response对象，这个方法一句创建对象的时候描述的的提取规则，在这个response对象的页面中提取链接，最终返回一个列表，其中的每一个元素都是个link对象，也就是提取到的链接
由于页面中的下一页链接只有一个，因此用links[0]获取link对象，link对象的url属性就是链接页面的绝对url地址（无须在调用response.urljoin方法），用它构造request对象并再次提交

描述提取规则

　　特殊情况：

　　　　LinkExtractors构造器的所有的参数都是有默认值的，如果构造对象的时候不传入任何参数，就会自动提取页面中的所有的链接

　　LinkExtractor构造器的各个参数：

posted @ 2019-10-19 10:25 tulintao 阅读(1294) 评论(0) 编辑收藏举报

刷新页面返回顶部