摘要: 现在一台机器爬虫太慢了,想使用多台机器爬虫,于是想到一个办法,就是A的linux配置一个samba,B的linux也配置一个samba,将B的linux的samba挂载到A的目录下。 A linux 用户:root 密码:123456 B linux 用户:wang 密码:123456 使用moun 阅读全文
posted @ 2018-08-24 10:53 WangHello 阅读(2434) 评论(0) 推荐(0) 编辑
摘要: 近期爬虫框架慢慢优化,就想转进定时任务执行,不然自己天天在那边敲运行程序的命令也是很麻烦,但是我的ruby使用rvm安装的,所以跑脚本的时候,还要带上rvm的路径,path,gem_home,gem_path,就可以运行了,写个随笔总结一下,步骤如下。 先大概说一下,首先,我的ruby程序都已经写好 阅读全文
posted @ 2018-08-08 16:41 WangHello 阅读(311) 评论(0) 推荐(0) 编辑
摘要: 有时候你想把文件夹从window复制到虚拟机,或者虚拟机复制window有没有特麻烦,一更新就要拖来拖去的,现在不麻烦了,我们配置一个samba服务器,来进行window和虚拟机之间的共享文件夹,只需在上面操作就可以,两边可以同时同步,我的虚拟机是centos7。 第一步:安装samba,敲入命令 阅读全文
posted @ 2018-08-07 10:12 WangHello 阅读(1056) 评论(0) 推荐(0) 编辑
摘要: 先说说正常的远程桌面的配置,win10设置连接远程桌面。 first:在桌面上找到【这台电脑】在这个图标上点右键再选择【属性】 second:进入系统设置界面点击【远程设置】 third:勾选如下 forth:选择用户 这里zhkj已经有访问权了 你可以自己增加账户 进行设置 然后确定就好啦 然后在 阅读全文
posted @ 2018-08-06 10:26 WangHello 阅读(6803) 评论(0) 推荐(0) 编辑
摘要: 最近在爬虫,要保存大量的源码在linux上,最后发现根目录不足,想要追加根目录的空间,我的系统是centos7,还好之前分配了一整个系统盘给centos,有200g,根目录目前使用了50g,现在从home目录分配100g给root目录,剩50g给自己,也就是home目录,我目前就给home留了40g 阅读全文
posted @ 2018-06-29 09:56 WangHello 阅读(48251) 评论(2) 推荐(3) 编辑
摘要: 现在比较主流的爬虫应该是用python,python我也写了这样子的一份框架,和ruby相对应。今天在这里说说ruby。我觉得ruby也是ok的,我试试看写了一个爬虫的小程序,并作出相应的解析,下载图片,生成excel报表。我是写了一个框架,专门拿来爬取商品信息的。废话不多说,直接搞事情。 第一步: 阅读全文
posted @ 2018-06-19 10:44 WangHello 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 国内的互联网服务越来越流氓,之前看了XMPP(Jabber)协议,Jabber是一个开放源代码形式组织产生的网络实时通信协议。XMPP原本是为即时通讯而量身定制,但由于XML Stanza本身是XML元素,在基于XML灵活发展的特性下,使得XMPP也可以适用其他方面,已经得到了IETF的批准。XMP 阅读全文
posted @ 2018-03-20 14:25 WangHello 阅读(2623) 评论(0) 推荐(0) 编辑
摘要: 现在经常会有一个用户在搜索引擎中输入不加空格或者分割符的,近来写了一个小小的代码,用一个词库,来匹配用户输入的单词或者是其他的东西,最后以空格分割输出。以下是一个简单的ruby程序。利用hash进行索引,查询速更快。 1 $stack = [] 2 $scan_str = File.read("#{ 阅读全文
posted @ 2018-03-20 10:18 WangHello 阅读(517) 评论(0) 推荐(0) 编辑