随笔分类 -  pyspider

摘要:自动登陆并获得PDF文件下载地址 阅读全文
posted @ 2016-12-08 16:35 microman 阅读(2643) 评论(0) 推荐(0) 编辑
摘要:传递参数 示例一 示例二 阅读全文
posted @ 2016-12-07 13:18 microman 阅读(2602) 评论(0) 推荐(0) 编辑
摘要:实现自动翻页功能 示例代码一 示例代码二 阅读全文
posted @ 2016-12-07 13:17 microman 阅读(2871) 评论(0) 推荐(0) 编辑
摘要:搜索引擎爬取 阅读全文
posted @ 2016-12-07 13:15 microman 阅读(1305) 评论(0) 推荐(0) 编辑
摘要:首先感谢“巧克力味腺嘌呤”的博客和Debian 8.1 安装配置 pyspider 爬虫,本人根据他们的教程在ubuntu系统中进行了实际操作,发现有一些不同,也出现了很多错误,因此做此教程,为新手服务。 安装pyspider 安装pyspider请参考另一篇:ubuntu系统下安装pyspider 阅读全文
posted @ 2016-12-07 13:11 microman 阅读(847) 评论(0) 推荐(0) 编辑
摘要:本篇内容的前提是你已安装好python 3.5。在ubuntu系统中安装pyspider最大的困难是要依赖组件经常出错,特别是pycurl,但把对应的依赖组件安装好,简单了。下面直接上代码,所有的依赖我都实践过。 前面三个命令都是安装相关的依赖组件。 阅读全文
posted @ 2016-12-07 13:09 microman 阅读(908) 评论(0) 推荐(0) 编辑
摘要:首先感谢segmentfault.com的“imperat0r_”用户的文章和新浪的“小菜一碟”用户的文章。这是他们的配置文件。我参考也写了一个,在最后呢。 重点说明写在前面。本人用supervisord配置好pyspider后,pyspider一直有问题,不能正常运行。找了很久原因。最后想起,su 阅读全文
posted @ 2016-12-07 11:06 microman 阅读(1378) 评论(0) 推荐(0) 编辑
摘要:问题描述: 在建立第一个虚拟环境时,运行pyspider正常。建立第二个虚拟环境时,运行pyspider再现下面错误。应该是phantomjs没有启动成功。 解决方法: 找到phantomjs安装的位置,把phantomjs复制到/usr/local/bin 阅读全文
posted @ 2016-12-06 10:00 microman 阅读(1965) 评论(0) 推荐(0) 编辑
摘要:本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉。pyspider示例代码官方网站是http://demo.pyspider.org/。上面的示例代码太多,无从下手。因此本人找出一些比较经典的示例进行简单讲解,希望对新手有一些帮助。 示例说明: 本示例主要是PyQuery解析返回的 阅读全文
posted @ 2016-11-28 22:36 microman 阅读(7468) 评论(0) 推荐(0) 编辑
摘要:本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉。pyspider示例代码官方网站是http://demo.pyspider.org/。上面的示例代码太多,无从下手。因此本人找出一下比较经典的示例进行简单讲解,希望对新手有一些帮助。 示例说明: pyspider爬取的内容通过回调的 阅读全文
posted @ 2016-11-28 22:14 microman 阅读(3973) 评论(0) 推荐(0) 编辑
摘要:本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉。pyspider示例代码官方网站是http://demo.pyspider.org/。上面的示例代码太多,无从下手。因此本人找出一下比较经典的示例进行简单讲解,希望对新手有一些帮助。 示例说明: 如果页面中部分数据或文字由js生成, 阅读全文
posted @ 2016-11-28 16:50 microman 阅读(4829) 评论(0) 推荐(0) 编辑
摘要:对于Python开发用户来讲,PIP安装软件包是家常便饭。但国外的源下载速度实在太慢,浪费时间。而且经常出现下载后安装出错问题。所以把PIP安装源替换成国内镜像,可以大幅提升下载速度,还可以提高安装成功率。 国内源: 新版ubuntu要求使用https源,要注意。 清华:https://pypi.t 阅读全文
posted @ 2016-11-27 23:15 microman 阅读(199894) 评论(4) 推荐(16) 编辑