摘要: 承接上篇pyspark,这里再给一个我写的scala的例子。这个的目的是从埋点事件里统计需要的几个事件并分区域累计,kafka stream实时计算 要说一下,版本特别重要,一个是spark版本(<2, 2.0, >2.0),一个是scala版本(主要是<2.11和2.11),注意匹配 pom.xm 阅读全文
posted @ 2017-10-09 12:30 Els0n 阅读(501) 评论(0) 推荐(0) 编辑
摘要: 这是年初写的一个job,用于对api非法访问(大量403)进行统计,并有其他后续手段。写的比较通俗易懂,做个sample记录下 数据源是kafka stream,实时计算。规则是mysql配置的,简单说就是1分钟内超过多少次403就记录下来 python写spark需要在spark服务器上用pysp 阅读全文
posted @ 2017-10-09 11:59 Els0n 阅读(1437) 评论(0) 推荐(0) 编辑
摘要: 有时候我在想,我为什么这么喜欢用node.js。其实不是它自身多好,而是因为它吸引了无数talent为npm贡献智慧,而我们只要使用就好了 为了降低对存储端的读取压力,有时候需要在express里加缓存,用来缓存request并直接response 推荐使用apicache 你可以缓存所有请求,也可 阅读全文
posted @ 2017-09-28 17:51 Els0n 阅读(321) 评论(0) 推荐(0) 编辑
摘要: 在django进行后端缓存十分方便,自带组件,支持本地内存,redis,memcache等。为了稳定和快速,建议用本地memcache django缓存采用decorator的形式,不用改逻辑代码,无侵入 可见非常方便地对request做了hash后做key存储,并且有ttl 阅读全文
posted @ 2017-09-28 17:34 Els0n 阅读(241) 评论(0) 推荐(0) 编辑
摘要: redshift默认utf8编码。但有时会遇到无法解码的invalid char,报错停下来。在数据侧的解决方案是加上ACCEPTINVCHARS选项 这样会把无效字符替换为?,如"hell?o"而不报错 阅读全文
posted @ 2017-09-26 11:05 Els0n 阅读(327) 评论(0) 推荐(0) 编辑
摘要: pssh的ip列表有2种输入方式: 通常情况下会有很多个主机,整理为iplist文件使用。但每次都要做文件和维护文件是挺麻烦的一件事,希望能有个动态结果,比如cat或其他命令的结果作为输入,像管道一样 实现如下: 阅读全文
posted @ 2017-09-20 17:43 Els0n 阅读(372) 评论(0) 推荐(0) 编辑
摘要: h5 input标准有date,可惜目前只有chrome支持了。在这之前,形形色色的date-picker很多,有的好看,有的小。不过都需要代码改造。我推荐一款无缝兼容的插件,webshim,它的作用是让缺少h5 feature的browser能够支持h5,比如input type=date 每一种 阅读全文
posted @ 2017-09-18 17:28 Els0n 阅读(1985) 评论(0) 推荐(0) 编辑
摘要: NFS是network filesystem,通过网络共享一块磁盘。这里有一篇很好的教程,可以follow step by step 实际步骤:实例A,B创建NFS 首先在aws添加ebs并附加到A A机 #创建pv apt-get install lvm2 ls /dev/xv* pvcreate 阅读全文
posted @ 2017-09-18 14:57 Els0n 阅读(565) 评论(0) 推荐(0) 编辑
摘要: cassandra比较智能,需要做的工作不多。 A:10..1 单节点cluster B:10..2 需要加入的新机器 步骤: 阅读全文
posted @ 2017-09-18 14:51 Els0n 阅读(1131) 评论(0) 推荐(0) 编辑
摘要: 给一个混入了很多.和..的path,得到其绝对路径 先看bash realpath结果 我来用js实现 代码很简单,设一个结果数组arr,用split将path分离后遍历元素。.代表当前路径,..代表上级路径,其他都是正常路径。所以处理方法是: 阅读全文
posted @ 2017-09-16 01:40 Els0n 阅读(1069) 评论(0) 推荐(0) 编辑