摘要: 2017-03-28 入职接到的第一个小任务,scrapy多级页面爬虫,从来没写过爬虫,也没学过scrapy,甚至连xpath都没用过,最后用了将近一周才搞定。肯定有很多low爆的地方,希望大家可以给我一些建议。 spider文件: items文件: pipelines文件 settings文件(部 阅读全文
posted @ 2017-05-09 11:32 右介 阅读(8566) 评论(0) 推荐(0) 编辑
摘要: 2017-03-27 有的时候我们爬取数据的时候需要在多个页面之间跳转,爬取完所有页面的数据的时候才能把所有数据一起存到数据库,这个时候我们就需要把某个函数内爬取的数据传到下一个函数当中。有人可能会说,为什么不用全局变量呢?这是因为scrapy自带多线程机制,好几个线程同时跑,用全局变量很不明智,除 阅读全文
posted @ 2017-05-09 11:06 右介 阅读(2012) 评论(0) 推荐(0) 编辑
摘要: 2017-03-23 报错原因: pip安装Python包会加载我的用户目录,我的用户目录恰好是中文的,ascii不能编码。 解决办法: python目录 Python27\Lib\site-packages 建一个文件sitecustomize.py 内容写: import sys sys.set 阅读全文
posted @ 2017-05-09 10:56 右介 阅读(604) 评论(0) 推荐(0) 编辑
摘要: 2017-03-23 非本人原创,只是写爬虫时很有用,就留下了 <A id="a1"> <B id="b1"> <C id="c1"> <B name="b"/> <D id="d1"/> <E id="e1"/> <E id="e2"/> </C> </B> <B id="b2"/> <C id= 阅读全文
posted @ 2017-05-09 10:48 右介 阅读(2487) 评论(0) 推荐(0) 编辑
摘要: 2017-03-23 select trim(字段) from 表 删除左右空格 select ltrim(字段) from 表 删除左空格 select rtrim(字段) from 表 删除右空格 阅读全文
posted @ 2017-05-09 10:39 右介 阅读(16821) 评论(0) 推荐(0) 编辑
摘要: 2017-03-23 问题描述: #选择出节点中“时间”二字 <h2>时间</h2> item["file_urls"]= response.xpath("//h2[text()= '时间']") #报错:ValueError: All strings must be XML compatible: 阅读全文
posted @ 2017-05-09 10:16 右介 阅读(913) 评论(0) 推荐(0) 编辑