摘要: 阅读全文
posted @ 2019-08-21 17:08 叫我大表哥 阅读(548) 评论(0) 推荐(0) 编辑
摘要: Selectors(选择器) 当您抓取网页时,您需要执行的最常见任务是从HTML源中提取数据。有几个库可以实现这一点: BeautifulSoup是Python程序员中非常流行的网络抓取库,它基于HTML代码的结构构建一个Python对象,并且处理相当糟糕的标记,但它有一个缺点:它很慢。 lxml是 阅读全文
posted @ 2019-08-21 08:46 叫我大表哥 阅读(418) 评论(0) 推荐(0) 编辑
摘要: Items 主要目标是从非结构化来源(通常是网页)提取结构化数据。Scrapy爬虫可以将提取的数据作为Python语句返回。虽然方便和熟悉,Python dicts缺乏结构:很容易在字段名称中输入错误或返回不一致的数据,特别是在与许多爬虫的大项目。 要定义公共输出数据格式,Scrapy提供Item类 阅读全文
posted @ 2019-08-21 08:45 叫我大表哥 阅读(970) 评论(0) 推荐(0) 编辑