06 2017 档案
摘要:机智的防爬虫标识原创博客地址:http://www.cnblogs.com/alexkn/p/7095855.html博客求关注: http://www.cnblogs.com/alexkn 1.启动时间测试常用方案介绍 如何精确测试启动时间,其实这个问题可大可小,主要需要看团队对启动时间的测试精度
阅读全文
摘要:一.环境配置 不赘述,直接看wiki:https://wiki.jenkins.io/display/JENKINS/Extend+Jenkins 二.内容说明 1.插件代码结构 src/main/java:主要存放Java 源码文件. src/main/resources:Jelly/Groovy
阅读全文
摘要:因为一个朋友最近想搞接口压力测试,推荐了jmeter,因为jmeter开源,且有命令行启动模式,方便封装。兴起时,自己也简单实现了一下高并发的脚本。 一开始想到的采用的是多进程+多线程+协程。想法是这样的,多进程是为了有效利用多核,理论上最好一个核对应一个进程比较好;那我为什么还要用多线程呢?不怕G
阅读全文
摘要:回调函数用起来比较爽。特别是在js中,满世界全是回调,那么在python中,怎么来优雅地实现自己的回调函数呢 下面贴一个我写的例子 在这里实现的是当self.crawl指定callback方法时,self.crawl会在接收到start_url参数执行完成后回调self.index_url。 而实现
阅读全文
摘要:1.celery的任务调度 2.celery如何进行负载均衡设计 celery有send_task方式去做任务调度,因此,负载均衡的话,可以采用自己的算法去做任务分配,可参考:http://blog.csdn.net/vintage_1/article/details/47664187
阅读全文
摘要:1.tornado 一个精简的异步爬虫(来自tornado的demo) 2.tornado的定时回调
阅读全文
摘要:原文链接:Python Click 学习笔记 Click 是 Flask 的团队 pallets 开发的优秀开源项目,它为命令行工具的开发封装了大量方法,使开发者只需要专注于功能实现。恰好我最近在开发的一个小工具需要在命令行环境下操作,就写个学习笔记。 国际惯例,先来一段 “Hello World”
阅读全文
摘要:1.炒股类 http://tushare.org/index.html
阅读全文
摘要:最近有一个私人项目要搞,可能最近的博客都会变成爬虫跟数据分析类的了。既然是爬虫,第一反应想到的就是鼎鼎大名的scrapy了,其次想到的pyspider,最后想到的就是自己写。 scrapy是封装了twisted的一个爬虫框架,项目结构比较清晰 其中Item Pipeline决定了数据传输跟保存的结构
阅读全文
摘要:Scrapy不方便调试,但是为了深入学习框架内部的一些原理,有时候仅仅依靠日志是不够的。下面提供一种scrapy的debug方式 demo直接用来自官方例子来演示:https://github.com/scrapy/quotesbot 在运行 scrapy 库时,其实是相当于运行一个 python
阅读全文