摘要: 自己也写了一个爬虫框架,最近在使用scrapy爬虫框架,发现爬小型的还是可以的,但是爬大型的一些网站,感觉使用起来还是不太行的,就考虑这边用scrapy+redis采用分布式爬虫。废话不多说,我们来安装redis,其实很easy。 第一步:https://github.com/tporadowski 阅读全文
posted @ 2019-01-17 14:35 WangHello 阅读(2734) 评论(0) 推荐(0) 编辑
摘要: scrapy 一个很好用的python爬虫框架 开发环境:python3.6 + centos 7 安装scrapy: pip install scrapy 爬虫网站: http://www.bsriceones.ga 首先我们创建一个工程: 然后 我们cd bsriceones 进入这个工程,在改 阅读全文
posted @ 2018-12-18 15:51 WangHello 阅读(1736) 评论(0) 推荐(0) 编辑
摘要: 手机自动化实现,刚刚开始进行环境配置的时候,但是一般人都会遇到两个问题。 第一个问题解决: 第二个问题解决: 以上这两个问题解决了,也就好办啦! 阅读全文
posted @ 2018-11-22 09:24 WangHello 阅读(670) 评论(0) 推荐(0) 编辑
摘要: 大家可能都会爬虫,可能都有各自的爬虫工具,但是我觉得如果要靠爬虫吃饭,python的scrapy这个框架还是需要学习一下的,这两天看了一下这个文档,发现效率还是不错的,分布式爬虫,代码量还很少的,效率还是很高的。 开发平台:centos 7 python版本:python3.6 第一步:要使用这个第 阅读全文
posted @ 2018-11-13 17:17 WangHello 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 在爬虫的时候,我们会遇到一些问题,即使获取到全文的url,但是可能page的连接获取不完整,就会导致我们爬虫的时候,比如说爬商品信息,就会拿不完整商品信息。 页面信息大概有这两种情况: 第一种: 1,2,3,4,5,...,next,last 第二种: 1,2,3,4,5,> 实现语言:ruby o 阅读全文
posted @ 2018-10-18 11:46 WangHello 阅读(1246) 评论(0) 推荐(0) 编辑
摘要: 情况一:在html中有些字符是预留的,例如'<'小于号就会显示'&amp;lt;',我们要把这些预留的符号转成我们想要的,包括一些不可见的字符,应该怎么做呢 首先 我们 gem install htmlentities 安装这个gem ,下面看这个例子 再看一个例子 情况二:有些编码是ASCII-8 阅读全文
posted @ 2018-10-12 10:27 WangHello 阅读(669) 评论(0) 推荐(0) 编辑
摘要: 今天没啥事情做,就想着复习复习android,不然快把android给忘记了,于是乎就干起来。边学边复习边做做,正好我手上有一些自己爬虫的数据,想着没事干的时候可以做做一个小商城,当作练练手。 开发环境:android studio,win10 首先在google地址栏输入android dev t 阅读全文
posted @ 2018-09-20 14:29 WangHello 阅读(38567) 评论(2) 推荐(1) 编辑
摘要: selenium是什么?自动化测试工具,他支持各种浏览器,chrome,firefox等,我们可以在这些浏览器里面安装插件,可以方便的进行web测试,也可以通过代码操作,直接对web界面进行测试。 selenium支持多种语言开发java、python、ruby、c#、js、php等。这边,我用的是 阅读全文
posted @ 2018-09-20 10:33 WangHello 阅读(1759) 评论(0) 推荐(0) 编辑
摘要: 从官网下载一个免安装的tomcat,我把它解压在E盘,配置了环境变量:CATALINA_HOME、CATALINA_BASE、TOMCAT_HOME 为 tomcat的解压路径 进入解压tomcat的bin目录,执行startup.bat,出现闪退。 然后win+R 输入cmd 进入解压tomcat 阅读全文
posted @ 2018-09-14 17:17 WangHello 阅读(6150) 评论(0) 推荐(0) 编辑
摘要: 前段时间发现单进程爬虫实在是太慢太慢,有时候一天也不一定爬的完,后面就考虑到用多进程,写好程序后,试试看,速度666的。废话不多说,直接干活。 我是用的语言是ruby(当然python也是可以的,我这边就不贴python的,这边我们说ruby的),socket这边我才用udp通讯,因为tcp速度上会 阅读全文
posted @ 2018-09-13 10:03 WangHello 阅读(236) 评论(0) 推荐(0) 编辑