2016 年 10月 20 日随笔档案 - xyy3

2016年10月20日

摘要： selenium采集页面元素 phantomjs主要是模拟登录也没多少说的，上代码吧运行结果编码错误，需要改成 print article.text.encode('gb18030') 运行结果为阅读全文

posted @ 2016-10-20 13:27 xyy3 阅读(2305) 评论(0) 推荐(1) 编辑

摘要： scrapy爬虫还是很简单的，主要是三部分：spider，item，pipeline 其中后面两个也是通用套路，需要详细解析的也就是spider。具体如下：在网上找了几个汽车网站，后来敲定，以易车网作为爬取站点原因在于，其数据源实在是太方便了。看这个页面，左边按照品牌排序，搜索子品牌，再挨个阅读全文

posted @ 2016-10-20 11:59 xyy3 阅读(3472) 评论(0) 推荐(3) 编辑

xyy3

公告