上一页 1 2 3 4 5 6 7 8 9 10 ··· 16 下一页
摘要: 在爬虫过程中,经常给服务器造成压力(比如耗尽CPU,内存,带宽等),为了减少不必要的访问(比如爬虫),网页开发者就发明了反爬虫技术。 常见的反爬虫技术有封ip,user_agent,字体库,js加密,验证码(字符验证码,滑动验证码,点触式验证码等)。所谓魔高一尺道高一丈。有反爬虫,就有反反爬虫技术。 阅读全文
posted @ 2019-02-21 14:51 淋哥 阅读(7923) 评论(3) 推荐(6) 编辑
摘要: 我的网络安全需要搜狗微信的验证码保护吗?真他妈的扯淡。 破解方法:不停更换snuid 阅读全文
posted @ 2019-02-14 14:00 淋哥 阅读(2636) 评论(0) 推荐(0) 编辑
摘要: MYSQL单表可以存储多少条数据??? 单表存储四千万条数据,说MySQL不行的自己打脸吧。 多说一句话,对于爬虫来说,任何数据库,仅仅是存储数据的地方,最关心的是 能否存储数据和存储多少数据以及存储数据的速度而已。 至于后期的处理需要查询,完全可以用ES或者其他的数据库。 阅读全文
posted @ 2019-02-14 09:49 淋哥 阅读(23763) 评论(0) 推荐(2) 编辑
摘要: 进程 不共享任何状态 调度由操作系统完成 有独立的内存空间(上下文切换的时候需要保存栈、cpu寄存器、虚拟内存、以及打开的相关句柄等信息,开销大) 通讯主要通过信号传递的方式来实现(实现方式有多种,信号量、管道、事件等,通讯都需要过内核,效率低) 不共享任何状态 调度由操作系统完成 有独立的内存空间 阅读全文
posted @ 2019-01-28 11:02 淋哥 阅读(3475) 评论(0) 推荐(0) 编辑
摘要: https://www.elastic.co/downloads/elasticsearch http://www.cnblogs.com/xuxy03/p/6039999.html https://blog.csdn.net/camelcanoe/article/details/79528265 阅读全文
posted @ 2019-01-08 15:42 淋哥 阅读(670) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-01-03 14:17 淋哥 阅读(2288) 评论(0) 推荐(0) 编辑
摘要: 频繁的访问淘宝一个链接,然后抛出来一个滑动验证码,测试后发现淘宝发现某个ip请求频繁,就跑出验证码。解决办法是ip池 阅读全文
posted @ 2018-12-29 11:39 淋哥 阅读(19726) 评论(1) 推荐(0) 编辑
摘要: 前言:本文介绍的是基于关键词搜索实现百度资讯的爬虫解决办法 第一步:关键词搜索 1. 我们要找到适合自己的关键词,注意关键词决定着我们能否搜索到优质的数据,所以找到足够多的关键词,优质的关键词,能让我们采集更多的数据。 2.搜索按照时间大小排序,在第一页解析出来 新闻标题,新闻来源,新闻发布时间,新 阅读全文
posted @ 2018-12-26 19:20 淋哥 阅读(1315) 评论(0) 推荐(0) 编辑
摘要: 最近发生了一些事情,感觉自己走到了人生的巅峰,但是又发生了一些事情,使人生坠入了低谷,我突然想起来一句话,人的一生经得起什么样的磨难,就能取得什么样的成就,我从小到大吃过了太多的苦,作过很多难,吃过无数次亏,他们都没有打倒我,每次从新站起来了。这次一定打不倒我,不出半年我还会站起来的,加油。 ----人的一生经得起什么样的磨难,就能取得什么样的成就。 阅读全文
posted @ 2018-12-20 09:39 淋哥 阅读(363) 评论(0) 推荐(1) 编辑
摘要: 输出结果: 阅读全文
posted @ 2018-12-04 15:16 淋哥 阅读(5408) 评论(0) 推荐(1) 编辑
摘要: 所有的需求都看这个图片吧,这个就是我爬取一个网站所用的服务器和服务器资源的消耗情况。 阅读全文
posted @ 2018-12-03 14:46 淋哥 阅读(2895) 评论(0) 推荐(0) 编辑
摘要: 原始代码: 报错内容是: 解决办法: 阅读全文
posted @ 2018-11-27 17:54 淋哥 阅读(1706) 评论(0) 推荐(0) 编辑
摘要: 使用示例: 数据表中的pubTime 列的时间格式我们只想去年月日,去掉时分秒,如果实现呢 一个sql语句就实现了这个功能,强大不? 阅读全文
posted @ 2018-11-21 11:04 淋哥 阅读(5475) 评论(0) 推荐(0) 编辑
摘要: (1366, "Incorrect string value: '\\xF0\\x9F\\x8E\\xAC\\xE5\\x89...' for column 'description' at row 1") 针对MySQL的这个错误, 第一种方法是 : set names utf8mb4; SET 阅读全文
posted @ 2018-10-19 10:50 淋哥 阅读(1256) 评论(0) 推荐(0) 编辑
摘要: from datetime import datetime from datetime import timedelta if "刚刚" in publish_time: publish_time = datetime.now().strftime('%Y-%m-%d %H:%M') elif "分钟" in publish_time: minute = publis... 阅读全文
posted @ 2018-10-19 09:28 淋哥 阅读(1193) 评论(0) 推荐(0) 编辑
摘要: Python存入kafka报错,ReferenceError: weakly-referenced object no longer exists。 解决办法是加入 producer.stop() 完整代码是: 其中 data是推送到kafka中的数据 阅读全文
posted @ 2018-10-08 13:53 淋哥 阅读(2967) 评论(0) 推荐(0) 编辑
摘要: 爬虫工程师最牛逼的地方是什么??? 爬虫工程师最牛逼的地方是什么??? 爬虫工程师最牛逼的地方是什么??? 今天突然想到了这个问题,是因为解决工作的时候,突然想到了这个问题,我的答案是: 爬虫不在乎你每天爬取多少数据,不在乎你爬取多少网站,而是自己写的代码,运行错误的时候能随时的去改正这个错误,我认 阅读全文
posted @ 2018-09-26 11:08 淋哥 阅读(1884) 评论(0) 推荐(1) 编辑
摘要: 一: 问题描述: 爬虫微博 信息,出现302跳转, 比如访问的URL是:https://weibo.com/2113535642?refer_flag=1001030103_ (图片中标记为1) 然后跳转的URL是:https://weibo.com/sgccjsdl?refer_flag=1001 阅读全文
posted @ 2018-09-21 18:42 淋哥 阅读(6968) 评论(0) 推荐(0) 编辑
摘要: 需求: str1 = " " 想把 这段字符串的标签全部都去掉,比如去掉 </li>, </ul>, </div>.。只保留不带<>的内容,但是要保留<br/>, 有什么好的办法吗?使用正则可以实现这个工作: 输出结果是: 阅读全文
posted @ 2018-09-06 16:39 淋哥 阅读(7302) 评论(0) 推荐(0) 编辑
摘要: 在这篇博文中手把手教你如何去分割验证,然后进行识别。 一:下载验证码 验证码分析,图片上有折线,验证码有数字,有英文字母大小写,分类的时候需要更多的样本,验证码的字母是彩色的,图片上有雪花等噪点,因此识别改验证码难度较大 二:二值化和降噪: 三: 切割: 四:分类: 五: 测试识别率 六:总结: 综 阅读全文
posted @ 2018-08-10 17:55 淋哥 阅读(21239) 评论(18) 推荐(4) 编辑
摘要: 阅读全文
posted @ 2018-08-06 10:19 淋哥 阅读(636) 评论(0) 推荐(0) 编辑
摘要: 某个招聘网站的验证码识别,过程如下 一: 原始验证码: 二: 首先对验证码进行分析,该验证码的数字颜色有变化,这个就是识别这个验证码遇到的比较难的问题,解决方法是使用PIL 中的 getpixel 方法进行变色处理,统一把非黑色的像素点变成黑色 变色后的图片 三: 通过观察,发现该验证码有折线,需要 阅读全文
posted @ 2018-08-03 18:07 淋哥 阅读(43494) 评论(5) 推荐(10) 编辑
摘要: 本篇主要介绍网站数据非常大的采集心得 1. 什么样的数据才能称为数据量大: 我觉得这个可能会因为每个人的理解不太一样,给出的定义 也不相同。我认为定义一个采集网站的数据大小,不仅仅要看这个网站包括的数据量的大小,还应该包括这个网址的采集难度,采集网站的服务器承受能力,采集人员所调配的网络带宽和计算机 阅读全文
posted @ 2018-08-01 11:52 淋哥 阅读(3938) 评论(0) 推荐(0) 编辑
摘要: 今天闲的无聊,爬取了一个网站,百度百聘,仅供学习参考 直接上代码: 这个网址没有什么难度,只需要简单的请求一下请求接口就能得到数据,注意请求参数 city 需要 URL编码一下就可以,不会的同学请自行百度 URL编码 就可以了 阅读全文
posted @ 2018-07-30 17:56 淋哥 阅读(1794) 评论(0) 推荐(1) 编辑
摘要: 爬取某个网站,可以通过修改下拉框来实现数据批量加载 上图我们可以看到 view 下面的下拉框 的值是25 ,50 ,100 ,200。我们把200的值修改为5200,然后提交页面 然后直接出来所有的数据,不在需要做翻页: 爽不爽啊,请求的时候注意把cookie复制到请求头里面,有些网站是通过cook 阅读全文
posted @ 2018-07-17 15:57 淋哥 阅读(2511) 评论(0) 推荐(0) 编辑
摘要: 切割前: 切割后: 代码: 思路是用深度遍历,对图片进行二值化处理,先找到一个黑色像素,然后对这个像素的周围8个像素进行判断,如果没有访问过,就保存起来,然后最后这个数组的最小x和最大x就是x轴上的切割位置。这种分割的方法还是只能适用于没有粘连的验证码,比垂直分割的好处是,可以处理位置比较奇怪的验证 阅读全文
posted @ 2018-07-10 18:30 淋哥 阅读(5222) 评论(0) 推荐(0) 编辑
摘要: 备注(易拍全球) 切割前: 切割后: 切割前: 切割后: 好了,上代码: 阅读全文
posted @ 2018-07-10 17:15 淋哥 阅读(1982) 评论(0) 推荐(0) 编辑
摘要: 原来验证码: 切割前: 切割后: 切割前: 切割后: 切割前: 切割后: 切割前: 切割后: 切割前: 切割后: 直接上代码: 说明: 本切割算法适合验证码中的字母位置基本固定在一定的范围内,有比较好的切割效果 阅读全文
posted @ 2018-07-07 16:52 淋哥 阅读(4783) 评论(0) 推荐(0) 编辑
摘要: 处理器图像: 处理后图像: 代码: 阅读全文
posted @ 2018-07-05 17:48 淋哥 阅读(2081) 评论(0) 推荐(1) 编辑
摘要: 原始图片: 降噪后的图片 实现代码: 阅读全文
posted @ 2018-06-27 15:59 淋哥 阅读(5681) 评论(2) 推荐(1) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 16 下一页