上一页 1 ··· 7 8 9 10 11
摘要: 2017-04-10 1.要去重的文件,点击右键,选择程序。 2.选择excel表格或者wps表格。 3.excel表格去重:选中单元格——数据——筛选——高级筛选——选择不重复记录——确定 wps表格去重:选中单元格——数据——删除重复项——确定 4.保存,然后用txt文本打开,重复项去除。 阅读全文
posted @ 2017-05-17 14:47 右介 阅读(1113) 评论(0) 推荐(0) 编辑
摘要: 2017-03-29 Scrapy爬图片到本地应该会给图片自动生成sha1摘要算法文件名,我第一次用scrapy也不清楚太多,就在程序里自己写了一段实现这一功能的代码。需import hashlib 其实主要核心是下面这段 阅读全文
posted @ 2017-05-17 14:39 右介 阅读(563) 评论(0) 推荐(0) 编辑
摘要: 2017-03-28 入职接到的第一个小任务,scrapy多级页面爬虫,从来没写过爬虫,也没学过scrapy,甚至连xpath都没用过,最后用了将近一周才搞定。肯定有很多low爆的地方,希望大家可以给我一些建议。 spider文件: items文件: pipelines文件 settings文件(部 阅读全文
posted @ 2017-05-09 11:32 右介 阅读(8566) 评论(0) 推荐(0) 编辑
摘要: 2017-03-27 有的时候我们爬取数据的时候需要在多个页面之间跳转,爬取完所有页面的数据的时候才能把所有数据一起存到数据库,这个时候我们就需要把某个函数内爬取的数据传到下一个函数当中。有人可能会说,为什么不用全局变量呢?这是因为scrapy自带多线程机制,好几个线程同时跑,用全局变量很不明智,除 阅读全文
posted @ 2017-05-09 11:06 右介 阅读(2012) 评论(0) 推荐(0) 编辑
摘要: 2017-03-23 报错原因: pip安装Python包会加载我的用户目录,我的用户目录恰好是中文的,ascii不能编码。 解决办法: python目录 Python27\Lib\site-packages 建一个文件sitecustomize.py 内容写: import sys sys.set 阅读全文
posted @ 2017-05-09 10:56 右介 阅读(604) 评论(0) 推荐(0) 编辑
摘要: 2017-03-23 非本人原创,只是写爬虫时很有用,就留下了 <A id="a1"> <B id="b1"> <C id="c1"> <B name="b"/> <D id="d1"/> <E id="e1"/> <E id="e2"/> </C> </B> <B id="b2"/> <C id= 阅读全文
posted @ 2017-05-09 10:48 右介 阅读(2487) 评论(0) 推荐(0) 编辑
摘要: 2017-03-23 select trim(字段) from 表 删除左右空格 select ltrim(字段) from 表 删除左空格 select rtrim(字段) from 表 删除右空格 阅读全文
posted @ 2017-05-09 10:39 右介 阅读(16820) 评论(0) 推荐(0) 编辑
摘要: 2017-03-23 问题描述: #选择出节点中“时间”二字 <h2>时间</h2> item["file_urls"]= response.xpath("//h2[text()= '时间']") #报错:ValueError: All strings must be XML compatible: 阅读全文
posted @ 2017-05-09 10:16 右介 阅读(913) 评论(0) 推荐(0) 编辑
摘要: 例如: f = lambda x: x+x #lambda后的x为参数 print f(3) >>6 等价于 def func(x): return x+x print func(3) 与内建函数配合使用: print map(lambda x: x+x, [1, 2, 3]) >>[2 ,4, 6 阅读全文
posted @ 2017-02-17 17:37 右介 阅读(917) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11