摘要: Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手 阅读全文
posted @ 2018-08-08 18:55 zhangqi0828 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 页面解析和数据提取 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。 非结构化数据:先有数据,再有结构, 结构化数据:先有结构、再有数据 不同类型的数据,我们需要采用不同的方式来处理。 非结构化的数据处理 正则表达式 阅读全文
posted @ 2018-08-08 07:17 zhangqi0828 阅读(2870) 评论(0) 推荐(1) 编辑