随笔分类 -  Python 爬虫

摘要:Scrapy框架的架构如下图 具体部分说明: Engine:引擎,处理整个系统的数据流处理,出发事物,是整个框架的核心 Item:项目。定义了爬取结果的数据结构,爬取的数据会被赋值成该Item对象 Scheduler:调度器,接受引擎发过来的请求并将其加入队列中,在引擎再次请求的时候将请求提供给引擎 阅读全文
posted @ 2018-08-01 19:27 夜尽天已明 阅读(328) 评论(0) 推荐(0)
摘要:一、XPath from lxml import etree html = etree.parse('html源代码',etree.HTMLPaser()) 1.节点的获取 a.html.xpath('//*') #匹配HTML中的所有节点 b.html.xapth('//li') #匹配所有的li 阅读全文
posted @ 2018-07-28 15:49 夜尽天已明 阅读(951) 评论(0) 推荐(0)