2017 年 5月 9 日随笔档案 - 右介

2017年5月9日

摘要： 2017-03-28 入职接到的第一个小任务，scrapy多级页面爬虫，从来没写过爬虫，也没学过scrapy，甚至连xpath都没用过，最后用了将近一周才搞定。肯定有很多low爆的地方，希望大家可以给我一些建议。 spider文件： items文件： pipelines文件 settings文件（部阅读全文

posted @ 2017-05-09 11:32 右介阅读(8566) 评论(0) 推荐(0) 编辑

scrapy爬虫函数间传值简易教程

摘要： 2017-03-27 有的时候我们爬取数据的时候需要在多个页面之间跳转，爬取完所有页面的数据的时候才能把所有数据一起存到数据库，这个时候我们就需要把某个函数内爬取的数据传到下一个函数当中。有人可能会说，为什么不用全局变量呢？这是因为scrapy自带多线程机制，好几个线程同时跑，用全局变量很不明智，除阅读全文

posted @ 2017-05-09 11:06 右介阅读(2012) 评论(0) 推荐(0) 编辑

pip install 报错UnicodeDecodeError: 'ascii' codec can't decode byte

摘要： 2017-03-23 报错原因： pip安装Python包会加载我的用户目录，我的用户目录恰好是中文的，ascii不能编码。解决办法： python目录 Python27\Lib\site-packages 建一个文件sitecustomize.py 内容写： import sys sys.set 阅读全文

posted @ 2017-05-09 10:56 右介阅读(604) 评论(0) 推荐(0) 编辑

xpath节点匹配简易教程

摘要： 2017-03-23 非本人原创，只是写爬虫时很有用，就留下了 <A id="a1"> <B id="b1"> <C id="c1"> <B name="b"/> <D id="d1"/> <E id="e1"/> <E id="e2"/> </C> </B> <B id="b2"/> <C id= 阅读全文

posted @ 2017-05-09 10:48 右介阅读(2487) 评论(0) 推荐(0) 编辑

MySQL实现删除数据左右空格trim() 左空格ltrim() 右空格rtrim()

摘要： 2017-03-23 select trim(字段) from 表删除左右空格 select ltrim(字段) from 表删除左空格 select rtrim(字段) from 表删除右空格阅读全文

posted @ 2017-05-09 10:39 右介阅读(16821) 评论(0) 推荐(0) 编辑

scrapy爬虫程序xpath中文编码报错

摘要： 2017-03-23 问题描述： #选择出节点中“时间”二字 <h2>时间</h2> item["file_urls"]= response.xpath("//h2[text()= '时间']") #报错：ValueError: All strings must be XML compatible: 阅读全文

posted @ 2017-05-09 10:16 右介阅读(913) 评论(0) 推荐(0) 编辑

右介

公告