摘要: t## 使用Selector提取数据 ## 从页面中提取数据是SPider最重要的的工作之一Selete对象从页面中提取数据的核心技术是HTTP文本解析,常用的文本解析模块:BeautifulSoup API简单 但解析速度慢lxml 由C语言编写的xml解析库(l... 阅读全文
posted @ 2018-07-01 20:22 oifengo 阅读(523) 评论(0) 推荐(0) 编辑
摘要: Scrapy简介Scrapy是一个用Python语言(基于Twisted框架)编写的开源网络爬虫框架.Scrapy安装linux:conda install scrapywin:略 Mac:没钱用 测试import scarpyprint(scrapy.version... 阅读全文
posted @ 2018-07-01 19:32 oifengo 阅读(467) 评论(0) 推荐(0) 编辑
摘要: Python标准库——urllib模块功能:打开URL和http协议之类python 3.x中urllib库和urilib2库合并成了urllib库。其中urllib2.urlopen()变成了urllib.request.urlopen()urllib2.Reque... 阅读全文
posted @ 2018-07-01 10:40 oifengo 阅读(530) 评论(0) 推荐(0) 编辑