右介 - 博客园

2017年5月17日

摘要： 2017-04-10 1.要去重的文件，点击右键，选择程序。 2.选择excel表格或者wps表格。 3.excel表格去重：选中单元格——数据——筛选——高级筛选——选择不重复记录——确定 wps表格去重：选中单元格——数据——删除重复项——确定 4.保存，然后用txt文本打开，重复项去除。阅读全文

posted @ 2017-05-17 14:47 右介阅读(1113) 评论(0) 推荐(0) 编辑

python实现scrapy爬取图片到本地时的sha1摘要算法文件名

摘要： 2017-03-29 Scrapy爬图片到本地应该会给图片自动生成sha1摘要算法文件名，我第一次用scrapy也不清楚太多，就在程序里自己写了一段实现这一功能的代码。需import hashlib 其实主要核心是下面这段阅读全文

posted @ 2017-05-17 14:39 右介阅读(563) 评论(0) 推荐(0) 编辑

2017年5月9日

Python 自用代码（scrapy多级页面(三级页面)爬虫）

摘要： 2017-03-28 入职接到的第一个小任务，scrapy多级页面爬虫，从来没写过爬虫，也没学过scrapy，甚至连xpath都没用过，最后用了将近一周才搞定。肯定有很多low爆的地方，希望大家可以给我一些建议。 spider文件： items文件： pipelines文件 settings文件（部阅读全文

posted @ 2017-05-09 11:32 右介阅读(8566) 评论(0) 推荐(0) 编辑

scrapy爬虫函数间传值简易教程

摘要： 2017-03-27 有的时候我们爬取数据的时候需要在多个页面之间跳转，爬取完所有页面的数据的时候才能把所有数据一起存到数据库，这个时候我们就需要把某个函数内爬取的数据传到下一个函数当中。有人可能会说，为什么不用全局变量呢？这是因为scrapy自带多线程机制，好几个线程同时跑，用全局变量很不明智，除阅读全文

posted @ 2017-05-09 11:06 右介阅读(2012) 评论(0) 推荐(0) 编辑

pip install 报错UnicodeDecodeError: 'ascii' codec can't decode byte

摘要： 2017-03-23 报错原因： pip安装Python包会加载我的用户目录，我的用户目录恰好是中文的，ascii不能编码。解决办法： python目录 Python27\Lib\site-packages 建一个文件sitecustomize.py 内容写： import sys sys.set 阅读全文

posted @ 2017-05-09 10:56 右介阅读(604) 评论(0) 推荐(0) 编辑

xpath节点匹配简易教程

摘要： 2017-03-23 非本人原创，只是写爬虫时很有用，就留下了 <A id="a1"> <B id="b1"> <C id="c1"> <B name="b"/> <D id="d1"/> <E id="e1"/> <E id="e2"/> </C> </B> <B id="b2"/> <C id= 阅读全文

posted @ 2017-05-09 10:48 右介阅读(2487) 评论(0) 推荐(0) 编辑

MySQL实现删除数据左右空格trim() 左空格ltrim() 右空格rtrim()

摘要： 2017-03-23 select trim(字段) from 表删除左右空格 select ltrim(字段) from 表删除左空格 select rtrim(字段) from 表删除右空格阅读全文

posted @ 2017-05-09 10:39 右介阅读(16820) 评论(0) 推荐(0) 编辑

scrapy爬虫程序xpath中文编码报错

摘要： 2017-03-23 问题描述： #选择出节点中“时间”二字 <h2>时间</h2> item["file_urls"]= response.xpath("//h2[text()= '时间']") #报错：ValueError: All strings must be XML compatible: 阅读全文

posted @ 2017-05-09 10:16 右介阅读(913) 评论(0) 推荐(0) 编辑

2017年2月17日

Python中lambda使用简易教程

摘要：例如： f = lambda x: x+x #lambda后的x为参数 print f(3) >>6 等价于 def func(x): return x+x print func(3) 与内建函数配合使用： print map(lambda x: x+x, [1, 2, 3]) >>[2 ,4, 6 阅读全文

posted @ 2017-02-17 17:37 右介阅读(917) 评论(0) 推荐(0) 编辑

右介

公告