z_hong7

2016年5月19日

struts2 s2-005/s2-009/s2-013/s2-016/s2-019 payload

摘要：以下payload仅作整理记录，可以通过修改代码，改为带回显的自己的payload s2-005: ('\43_memberAccess.allowStaticMethodAccess')(a)=true&(b)(('\43context[\'xwork.MethodAccessor.denyMet 阅读全文

posted @ 2016-05-19 17:43 z_hong7 阅读(3358) 评论(0) 推荐(0) 编辑

记录使用过或者二次开发过的python模块与框架

摘要： scrapy：十分强大的爬虫模块，爬虫spiders须指定一个start_urls作为起始的任务，使用Rule(xpath,css)解析到新的任务，将需要的数据按照item结构，通过pipelines存储到指定的地方合理使用下载中间件downloadermiddleware的内置中间件，或者编写阅读全文

posted @ 2016-05-19 17:21 z_hong7 阅读(131) 评论(0) 推荐(0) 编辑

redis避免内存中的数据丢失

摘要：由于redis是将数据在内存中运行处理的，所以硬件配置上需要足够的内存支持 Can’t save in background: fork: Cannot allocate memory：修改内核参数vm.overcommit_memory = 1 Redis每隔几分钟或者多少个操作后会将数据在磁盘阅读全文

posted @ 2016-05-19 16:48 z_hong7 阅读(306) 评论(0) 推荐(0) 编辑

scrapy抓取js动态生成页面

摘要： scrapy 本身不能作为js engine 可以利用splash项目动态解析js：使用docker启动scrapinghub/splash项目并且监听8050端口，命令如下： docker run -p 8050:8050 scrapinghub/splash POST参数{"url": ur 阅读全文

posted @ 2016-05-19 16:46 z_hong7 阅读(1274) 评论(0) 推荐(0) 编辑

scrapy下载中间件

摘要： scrapy中内置了许多不错的下载中间件，可以按照需求合理使用在爬虫中，很简单也可以自己编写，其中有方法process_request，process_response，process_exception可以在请求前，请求后与抛出异常时做处理例如在请求前过滤url，加入黑名单，判断请求返回是否满阅读全文

posted @ 2016-05-19 16:43 z_hong7 阅读(244) 评论(0) 推荐(0) 编辑

三种分布式爬虫策略

摘要：这篇文章http://blog.csdn.net/Bone_ACE/article/details/50989104中的描述十分详细明了，所以直接引用，仅作记录：策略一： Slaver端从Master端拿任务（Request/url/ID）进行数据抓取，在抓取数据的同时也生成新任务，并将任务抛给M 阅读全文

posted @ 2016-05-19 16:28 z_hong7 阅读(4291) 评论(3) 推荐(1) 编辑

scrapy-redis详解

摘要： scrapy-redis使用的爬虫策略： Slaver端从Master端拿任务进行数据抓取，在抓取数据的同时也生成新任务，并将任务抛给Master。Master端负责对Slaver提交的任务进行去重、加入待爬队列。 scrapy-redis在处理分布式时，会在redis中创建两个key，一个是(sp 阅读全文

posted @ 2016-05-19 16:16 z_hong7 阅读(547) 评论(0) 推荐(0) 编辑

django-websocket

摘要：在项目中要用到ajax长轮询，但是在django中使用长轮询会出现崩溃现象(django==1.8.4)，所以考虑到websocket，正好有一个开源项目dwebsocket 在代码中引入dwebsocket后，一个request.websocket为一个client，用send方法即可向clien 阅读全文

posted @ 2016-05-19 15:33 z_hong7 阅读(299) 评论(0) 推荐(0) 编辑

在django后台添加自己的响应事件

摘要： django的admin后台管理功能很强大，但是在其基础上添加一些响应事件该怎么处理，例如添加一个按键实现自己项目的启动与停止控制其实有一个很简单的办法，比如后台列表页面url是/admin/a/b/，那么在自己项目的templates下面建/admin/a/b/change_list.html，阅读全文

posted @ 2016-05-19 15:04 z_hong7 阅读(2748) 评论(0) 推荐(0) 编辑

2016年3月23日

kafka与zookeeper简介

摘要： Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。 kafka对消息保存时根据Topic进行归类，发送消息者成为Producer,消息接受者成为C 阅读全文

posted @ 2016-03-23 10:40 z_hong7 阅读(39074) 评论(1) 推荐(0) 编辑

有时决定了要走，却总是徘徊留恋。有时决定留下，眼神却总望着远方的山水。没关系，唱首歌，走走停停地看看风景。一条路始终有个尽头。

公告