淋哥 - 博客园

2019年1月8日

摘要： https://www.elastic.co/downloads/elasticsearch http://www.cnblogs.com/xuxy03/p/6039999.html https://blog.csdn.net/camelcanoe/article/details/79528265 阅读全文

posted @ 2019-01-08 15:42 淋哥阅读(667) 评论(0) 推荐(0) 编辑

2019年1月3日

ES 插入十万条数据耗时1573秒

摘要：阅读全文

posted @ 2019-01-03 14:17 淋哥阅读(2272) 评论(0) 推荐(0) 编辑

2018年12月29日

淘宝频繁访问会出现滑动验证码

摘要：频繁的访问淘宝一个链接，然后抛出来一个滑动验证码，测试后发现淘宝发现某个ip请求频繁，就跑出验证码。解决办法是ip池阅读全文

posted @ 2018-12-29 11:39 淋哥阅读(19338) 评论(1) 推荐(0) 编辑

2018年12月26日

百度资讯爬虫解决方案

摘要：前言：本文介绍的是基于关键词搜索实现百度资讯的爬虫解决办法第一步：关键词搜索 1. 我们要找到适合自己的关键词，注意关键词决定着我们能否搜索到优质的数据，所以找到足够多的关键词，优质的关键词，能让我们采集更多的数据。 2.搜索按照时间大小排序，在第一页解析出来新闻标题，新闻来源，新闻发布时间，新阅读全文

posted @ 2018-12-26 19:20 淋哥阅读(1294) 评论(0) 推荐(0) 编辑

2018年12月20日

人的一生会遇到什么样的痛苦？？？？

摘要：最近发生了一些事情，感觉自己走到了人生的巅峰，但是又发生了一些事情，使人生坠入了低谷，我突然想起来一句话，人的一生经得起什么样的磨难，就能取得什么样的成就，我从小到大吃过了太多的苦，作过很多难，吃过无数次亏，他们都没有打倒我，每次从新站起来了。这次一定打不倒我，不出半年我还会站起来的，加油。 ----人的一生经得起什么样的磨难，就能取得什么样的成就。阅读全文

posted @ 2018-12-20 09:39 淋哥阅读(359) 评论(0) 推荐(1) 编辑

2018年12月4日

python gb2312 转换为 utf-8

摘要：输出结果：阅读全文

posted @ 2018-12-04 15:16 淋哥阅读(5398) 评论(0) 推荐(1) 编辑

2018年12月3日

爬虫需要什么样的 CPU，内存和带宽

摘要：所有的需求都看这个图片吧，这个就是我爬取一个网站所用的服务器和服务器资源的消耗情况。阅读全文

posted @ 2018-12-03 14:46 淋哥阅读(2865) 评论(0) 推荐(0) 编辑

2018年11月27日

TypeError: sequence item 0: expected string, Tag found

摘要：原始代码：报错内容是：解决办法：阅读全文

posted @ 2018-11-27 17:54 淋哥阅读(1699) 评论(0) 推荐(0) 编辑

2018年11月21日

MySQL 数据的截取，数据清洗

摘要：使用示例：数据表中的pubTime 列的时间格式我们只想去年月日，去掉时分秒，如果实现呢一个sql语句就实现了这个功能，强大不？阅读全文

posted @ 2018-11-21 11:04 淋哥阅读(5467) 评论(0) 推荐(0) 编辑

2018年10月19日

MySQL (1366, "Incorrect string value: '\\xF0\\x9F\\x8E\\xAC\\xE5\\x89...' for column 'description' at row 1")

摘要： (1366, "Incorrect string value: '\\xF0\\x9F\\x8E\\xAC\\xE5\\x89...' for column 'description' at row 1") 针对MySQL的这个错误，第一种方法是： set names utf8mb4; SET 阅读全文

posted @ 2018-10-19 10:50 淋哥阅读(1241) 评论(0) 推荐(0) 编辑

微博爬虫 ----- 微博发布时间清洗

摘要： from datetime import datetime from datetime import timedelta if "刚刚" in publish_time: publish_time = datetime.now().strftime('%Y-%m-%d %H:%M') elif "分钟" in publish_time: minute = publis... 阅读全文

posted @ 2018-10-19 09:28 淋哥阅读(1187) 评论(0) 推荐(0) 编辑

2018年10月8日

ReferenceError: weakly-referenced object no longer exists Python kafka

摘要： Python存入kafka报错，ReferenceError: weakly-referenced object no longer exists。解决办法是加入 producer.stop() 完整代码是：其中 data是推送到kafka中的数据阅读全文

posted @ 2018-10-08 13:53 淋哥阅读(2929) 评论(0) 推荐(0) 编辑

2018年9月26日

爬虫工程师最牛逼的地方是什么？？？

摘要：爬虫工程师最牛逼的地方是什么？？？爬虫工程师最牛逼的地方是什么？？？爬虫工程师最牛逼的地方是什么？？？今天突然想到了这个问题，是因为解决工作的时候，突然想到了这个问题，我的答案是：爬虫不在乎你每天爬取多少数据，不在乎你爬取多少网站，而是自己写的代码，运行错误的时候能随时的去改正这个错误，我认阅读全文

posted @ 2018-09-26 11:08 淋哥阅读(1880) 评论(0) 推荐(1) 编辑

2018年9月21日

爬虫解决302 问题

摘要：一：问题描述：爬虫微博信息，出现302跳转，比如访问的URL是：https://weibo.com/2113535642?refer_flag=1001030103_ （图片中标记为1）然后跳转的URL是：https://weibo.com/sgccjsdl?refer_flag=1001 阅读全文

posted @ 2018-09-21 18:42 淋哥阅读(6896) 评论(0) 推荐(0) 编辑

2018年9月6日

Python 字符串过滤

摘要：需求： str1 = " " 想把这段字符串的标签全部都去掉，比如去掉 </li>, </ul>, </div>.。只保留不带<>的内容，但是要保留<br/>，有什么好的办法吗？使用正则可以实现这个工作：输出结果是：阅读全文

posted @ 2018-09-06 16:39 淋哥阅读(7298) 评论(0) 推荐(0) 编辑

2018年8月10日

python 验证码识别示例（二）复杂验证码识别

摘要：在这篇博文中手把手教你如何去分割验证，然后进行识别。一：下载验证码验证码分析，图片上有折线，验证码有数字，有英文字母大小写，分类的时候需要更多的样本，验证码的字母是彩色的，图片上有雪花等噪点，因此识别改验证码难度较大二：二值化和降噪：三：切割：四：分类：五：测试识别率六：总结：综阅读全文

posted @ 2018-08-10 17:55 淋哥阅读(21127) 评论(18) 推荐(4) 编辑

2018年8月6日

快速排序算法的两种实现思路(附源代码)

摘要：阅读全文

posted @ 2018-08-06 10:19 淋哥阅读(633) 评论(0) 推荐(0) 编辑

2018年8月3日

python 验证码识别示例（一）某个网站验证码识别

摘要：某个招聘网站的验证码识别，过程如下一：原始验证码：二：首先对验证码进行分析，该验证码的数字颜色有变化，这个就是识别这个验证码遇到的比较难的问题，解决方法是使用PIL 中的 getpixel 方法进行变色处理，统一把非黑色的像素点变成黑色变色后的图片三：通过观察，发现该验证码有折线，需要阅读全文

posted @ 2018-08-03 18:07 淋哥阅读(43416) 评论(5) 推荐(10) 编辑

2018年8月1日

爬虫大规模数据采集心得和示例

摘要：本篇主要介绍网站数据非常大的采集心得 1. 什么样的数据才能称为数据量大：我觉得这个可能会因为每个人的理解不太一样，给出的定义也不相同。我认为定义一个采集网站的数据大小，不仅仅要看这个网站包括的数据量的大小，还应该包括这个网址的采集难度，采集网站的服务器承受能力，采集人员所调配的网络带宽和计算机阅读全文

posted @ 2018-08-01 11:52 淋哥阅读(3911) 评论(0) 推荐(0) 编辑

2018年7月30日

Python 爬虫实例（15）爬取百度百聘（微信公众号）

摘要：今天闲的无聊，爬取了一个网站，百度百聘，仅供学习参考直接上代码：这个网址没有什么难度，只需要简单的请求一下请求接口就能得到数据，注意请求参数 city 需要 URL编码一下就可以，不会的同学请自行百度 URL编码就可以了阅读全文

posted @ 2018-07-30 17:56 淋哥阅读(1781) 评论(0) 推荐(1) 编辑

2018年7月17日

爬虫修改下拉框

摘要：爬取某个网站，可以通过修改下拉框来实现数据批量加载上图我们可以看到 view 下面的下拉框的值是25 ,50 ,100 ,200。我们把200的值修改为5200，然后提交页面然后直接出来所有的数据，不在需要做翻页：爽不爽啊，请求的时候注意把cookie复制到请求头里面，有些网站是通过cook 阅读全文

posted @ 2018-07-17 15:57 淋哥阅读(2507) 评论(0) 推荐(0) 编辑

2018年7月10日

验证码识别之图像切割算法（三）连通域分割

摘要：切割前：切割后：代码：思路是用深度遍历，对图片进行二值化处理，先找到一个黑色像素，然后对这个像素的周围8个像素进行判断，如果没有访问过，就保存起来，然后最后这个数组的最小x和最大x就是x轴上的切割位置。这种分割的方法还是只能适用于没有粘连的验证码，比垂直分割的好处是，可以处理位置比较奇怪的验证阅读全文

posted @ 2018-07-10 18:30 淋哥阅读(5205) 评论(0) 推荐(0) 编辑

验证码识别之图像切割算法（二）

摘要：备注（易拍全球）切割前：切割后：切割前：切割后：好了，上代码：阅读全文

posted @ 2018-07-10 17:15 淋哥阅读(1975) 评论(0) 推荐(0) 编辑

2018年7月7日

验证码识别之图像切割算法（一）

摘要：原来验证码：切割前：切割后：切割前：切割后：切割前：切割后：切割前：切割后：切割前：切割后：直接上代码：说明：本切割算法适合验证码中的字母位置基本固定在一定的范围内，有比较好的切割效果阅读全文

posted @ 2018-07-07 16:52 淋哥阅读(4769) 评论(0) 推荐(0) 编辑

2018年7月5日

验证码识别图像降噪算法 Python (二）

摘要：处理器图像：处理后图像：代码：阅读全文

posted @ 2018-07-05 17:48 淋哥阅读(2079) 评论(0) 推荐(1) 编辑

2018年6月27日

验证码识别图像降噪 Python (一）

摘要：原始图片：降噪后的图片实现代码：阅读全文

posted @ 2018-06-27 15:59 淋哥阅读(5674) 评论(2) 推荐(1) 编辑

2018年6月24日

验证码识别一般思路

摘要：在计算机中彩色图片是由像素点组成，像素点由R(红)G(绿)B(蓝)三原色组成，在验证码识别过程中，一般把需要识别的字符称为前景，其他的称为背景灰度化：即将彩色图像转化为灰度图像，一般有以下三种方法 1）最大值法：命R、G、B的值等于三者中最大值，即R=G=B=max(R,G,B)，这种方法会形成亮阅读全文

posted @ 2018-06-24 00:50 淋哥阅读(670) 评论(0) 推荐(1) 编辑

2018年6月18日

爬虫对自己服务器 CPU，内存和网速的影响

摘要：今天无事写一遍关于爬虫对计算机的影响，主要是给小白同学普及一下爬虫的基础知识。在我们写爬虫的时候，首先会想到开多线程，如果使用的语言是Python，很不幸，因为Python存在 GIL,在任何时候，CPU内只有一条线程在运行，但是Python的多线程也能提高爬虫的速度，并且我们用python的多线阅读全文

posted @ 2018-06-18 15:51 淋哥阅读(6157) 评论(0) 推荐(2) 编辑

2018年6月8日

怎样将包含元组的列表转换为字典？

摘要：原始数据 [('firstid', '1'), ('language', 'g'), ('lastid', '199'), ('sale', '759'), ('saledate', '16. Mai 2018'), ('section', 'Moderne Kunst'), ('action', 阅读全文

posted @ 2018-06-08 18:17 淋哥阅读(3089) 评论(0) 推荐(0) 编辑

selenium 实现网页截图

摘要：使用webdriver提供的 save_screenshot 方法: 图片：阅读全文

posted @ 2018-06-08 10:04 淋哥阅读(1474) 评论(3) 推荐(0) 编辑

英雄莫问出处,富贵当思缘由

公告