摘要: 身为一个数据采集攻城狮 第一天:轻松的写好代码,开始友好的访问某个网站 第二天:代码不能用了,简单修复一下,继续友好的访问 第四天:代码不能用了,深层修复一下,继续友好的访问 第七天:代码不能用了,加班修复一下,继续更加友好的访问 。。。 第X天:) 阅读全文
posted @ 2018-05-06 22:52 Mr..D 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 目标: 搭建一个远程的phantomjs服务器,提供高可用服务,支持并发。 原料: 1、docker环境、docker-compose环境 2、phantomjs镜像: docker.io/wernight/phantomjs 3、haproxy镜像:haproxy:latest docker-co 阅读全文
posted @ 2018-04-13 23:39 Mr..D 阅读(1224) 评论(0) 推荐(0) 编辑
摘要: 具体使用方法见这里 https://blog.csdn.net/lynnyq/article/details/79254290 挺详细的,我就不抄了。 重点是一个坑: 执行 python manager.py apidoc 无反应 并且没有生成api文档 执行 apidoc -o static/do 阅读全文
posted @ 2018-04-08 16:52 Mr..D 阅读(1943) 评论(0) 推荐(0) 编辑
摘要: 1、使用 navicate 导出 csv 文件用 excel 打开乱码 由于excel默认编码是gbk,而navicate导出数据默认编码是utf-8,因此。。。 解决办法: 2、linux环境下安装python MySQLdb模块 需要先安装依赖环境 yum install mysql-devel 阅读全文
posted @ 2018-02-10 10:41 Mr..D 阅读(413) 评论(0) 推荐(0) 编辑
摘要: 说重点: NOTSET 意指不设置 所以按照父logger级别来过滤日志 注意 不是最低级别的意思 由于logging中root日志对象的默认级别是WARNING, 所以当你使用logging.getLogger获取一个日志对象, 并设置级别为 logging.NOTSET时, 使用logger.d 阅读全文
posted @ 2018-01-23 18:37 Mr..D 阅读(933) 评论(0) 推荐(1) 编辑
摘要: 首先,别人写的工具,赞一下 github地址 https://github.com/nkrode/RedisLive 然后,fork一下,自己加点功能 gui介绍(直接copy的github图片) 下面大概介绍一下初步使用(有个小坑): 1、下载代码 git clone https://github 阅读全文
posted @ 2018-01-22 17:16 Mr..D 阅读(1166) 评论(0) 推荐(0) 编辑
摘要: python本身有base64加密的模块,不过是用C写的,封装成了.so文件,无法查看源码,本着学习的心态,自己实现了一遍,算法 原理参考 浅谈Base64编码算法. 代码如下: 如有疏漏之处还请指正 阅读全文
posted @ 2017-05-05 13:06 Mr..D 阅读(3967) 评论(1) 推荐(1) 编辑
摘要: 网站: 汽车之家:http://club.autohome.com.cn/ 以论坛为例 反爬虫措施: 在论坛发布的贴子正文中随机抽取某几个字使用span标签代替,标签内容位空,但css样式显示为所代替的文。这样不会 影响正常用户的阅读,只是在用鼠标选择的时候是选不到被替换的文字的,对爬虫则会造成采集 阅读全文
posted @ 2017-04-29 22:04 Mr..D 阅读(21172) 评论(7) 推荐(2) 编辑
摘要: python语言用来解析配置文件的模块是ConfigParser,python3中是configparser模块,我在使用中发现write方法在将配置项重新写入文 件时,配置文件中的空行和注释行都会被去掉,虽然这个并不影响使用,但配置文件的可读性无疑还是变差了,为此特地对ConfigParser模块 阅读全文
posted @ 2017-04-17 15:04 Mr..D 阅读(6168) 评论(2) 推荐(0) 编辑
摘要: python标准库中的logging模块在记录日志时经常会用到,但在实际使用发现它自带的用于本地日志回滚的类 logging.handlers.RotatingFileHandler 在多进程环境下会出现不同进程向不同文件写的问题,原因就是在当前 日志文件写满后回滚的时候没有处理好并发问题(或者可以 阅读全文
posted @ 2017-02-20 13:52 Mr..D 阅读(801) 评论(0) 推荐(0) 编辑