摘要:
selenium采集页面元素 phantomjs主要是模拟登录 也没多少说的,上代码吧 运行结果 编码错误,需要改成 print article.text.encode('gb18030') 运行结果为 阅读全文
posted @ 2016-10-20 13:27
xyy3
阅读(2337)
评论(0)
推荐(1)
摘要:
scrapy爬虫还是很简单的,主要是三部分:spider,item,pipeline 其中后面两个也是通用套路,需要详细解析的也就是spider。 具体如下: 在网上找了几个汽车网站,后来敲定,以易车网作为爬取站点 原因在于,其数据源实在是太方便了。 看这个页面,左边按照品牌排序,搜索子品牌,再挨个 阅读全文
posted @ 2016-10-20 11:59
xyy3
阅读(3583)
评论(0)
推荐(3)
浙公网安备 33010602011771号