博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2016年3月3日

摘要: 之前写的都是针对爬虫过程中遇到问题的解决方案,没怎么涉及到实际案例。这次,就以博客园为主题,写一个自动私信博客下的评论人员(在本篇留下的评论的同学也会被自动私信,如果不想被私信,同时又有问题,请私信我)。 1).确定监控的博客,这里以http://www.cnblogs.com/hearzeus/p 阅读全文

posted @ 2016-03-03 15:43 不剃头的一休哥 阅读(4390) 评论(61) 推荐(13) 编辑

2016年2月29日

摘要: 年前写了验证码上篇,本来很早前就想写下篇来着,只是过年比较忙,还有就是验证码破解比较繁杂,方法不同,正确率也会有差异,我一直在找比较好的方案,但是好的方案都比较专业,设涉及到了图形图像处理这些,我也是一知半解,所以就耽误了下来,在此对一直等待的同学说声抱歉。有兴趣的同学可以自行看看这方面的资料。因为 阅读全文

posted @ 2016-02-29 11:33 不剃头的一休哥 阅读(7041) 评论(23) 推荐(8) 编辑

2016年1月29日

摘要: 本篇主要讲述验证码的验证流程,包括如何验证码的实现、如何获取验证码、识别验证码(这篇是人来识别,机器识别放在下篇)、发送验证码。同样以一个例子来说明。目标网址 http://icp.alexa.cn/index.php(查询域名备案信息) 1.验证码的实现: 简单的说,验证码就是一张图片,图片上有字 阅读全文

posted @ 2016-01-29 10:36 不剃头的一休哥 阅读(13616) 评论(9) 推荐(5) 编辑

2016年1月27日

摘要: 写爬虫之前,首先要明确爬取的数据。然后,思考从哪些地方可以获取这些数据。下面以一个实际案例来说明,怎么寻找一个好的爬虫策略。(代码仅供学习交流,切勿用作商业或其他有害行为) 1).方式一:直接爬取网站 目标网址:http://chanyouji.com/ 注意:这个网站会拦截IP,访问次数过多... 阅读全文

posted @ 2016-01-27 11:36 不剃头的一休哥 阅读(4572) 评论(4) 推荐(6) 编辑

2016年1月25日

摘要: 上一节,大概讲述了Python 爬虫的编写流程, 从这节开始主要解决如何突破在爬取的过程中限制。比如,IP、JS、验证码等。这节主要讲利用IP代理突破。 1.关于代理 简单的说,代理就是换个身份。网络中的身份之一就是IP。比如,我们身在墙内,想要访问google、u2b、fb等,直接访问是4... 阅读全文

posted @ 2016-01-25 11:40 不剃头的一休哥 阅读(37579) 评论(28) 推荐(8) 编辑

2016年1月22日

摘要: 毕设是做爬虫相关的,本来想的是用java写,也写了几个爬虫,其中一个是爬网易云音乐的用户信息,爬了大概100多万,效果不是太满意。之前听说Python这方面比较强,就想用Python试试,之前也没用过Python。所以,边爬边学,边学边爬。废话不多说,进入正题。 1.首先是获取目标页面,这个对... 阅读全文

posted @ 2016-01-22 16:38 不剃头的一休哥 阅读(11009) 评论(22) 推荐(10) 编辑

2015年9月24日

摘要: 上篇讲了一下配置,这次主要写一下这个框架开发的大概流程。这里以实现 登陆 功能为例。一、准备工作 1.访问拦截器 用户在进行网站访问的时候,有可能访问到不存在的网页,所以,我们需要把这些链接重新定向到一些存在的网页。比如,我们的页面只有登录页面,但是用户访问了注册页面,这个时候就是不存在的,... 阅读全文

posted @ 2015-09-24 14:32 不剃头的一休哥 阅读(1989) 评论(0) 推荐(0) 编辑

2015年9月23日

摘要: 接触这个两三月了,是时候总结一下使用的方法以及心得体会了。我是一个菜鸟,下面写的如有错误,还请各位前辈指出。废话不多说,正式开始。一、简介 Dubbo是Alibaba开源的分布式服务框架,它最大的特点是按照分层的方式来架构,使用这种方式可以使各个层之间解耦合(或者最大限度地松耦合)。 从服务模... 阅读全文

posted @ 2015-09-23 10:43 不剃头的一休哥 阅读(2823) 评论(0) 推荐(0) 编辑

2015年3月6日

摘要: 开发项目中需要将重要数据缓存在本地以便在离线是读取,如果不对数据进行处理,很容易造成损失。所以,我们一般对此类数据进行加密处理。这里,主要介绍两种简单的加密算法:DES&AES。先简单介绍一下一般的加密方案(如下图所示):1)明文:原始信息。2)加密算法:以密钥为参数,对明文进行多种置换和转换的规则... 阅读全文

posted @ 2015-03-06 17:34 不剃头的一休哥 阅读(589) 评论(0) 推荐(0) 编辑

2015年3月3日

摘要: 之前没怎么接触过蓝牙模块,在学习的过程中借鉴了很多前辈的经验。本次主要包含以下功能: 1、检测是否存在蓝牙模块 2、蓝牙的开启与关闭 3、与本机已配对的蓝牙设备 4、本机蓝牙可见性设置 5、扫描周围蓝牙设备关于蓝牙设备之间如何通讯下次再整理。下面开始介绍。1.1、首先要在配置文件中加入操作... 阅读全文

posted @ 2015-03-03 17:06 不剃头的一休哥 阅读(387) 评论(0) 推荐(0) 编辑