摘要: selenium采集页面元素 phantomjs主要是模拟登录 也没多少说的,上代码吧 运行结果 编码错误,需要改成 print article.text.encode('gb18030') 运行结果为 阅读全文
posted @ 2016-10-20 13:27 xyy3 阅读(2305) 评论(0) 推荐(1) 编辑
摘要: scrapy爬虫还是很简单的,主要是三部分:spider,item,pipeline 其中后面两个也是通用套路,需要详细解析的也就是spider。 具体如下: 在网上找了几个汽车网站,后来敲定,以易车网作为爬取站点 原因在于,其数据源实在是太方便了。 看这个页面,左边按照品牌排序,搜索子品牌,再挨个 阅读全文
posted @ 2016-10-20 11:59 xyy3 阅读(3472) 评论(0) 推荐(3) 编辑