2017 年 10月 9 日随笔档案 - Els0n

2017年10月9日

摘要：以下纯属个人意见 spark作为一种实时或历史数据计算方案，有如下几个特点：当然也有缺点：写spark job的原则：阅读全文

posted @ 2017-10-09 14:30 Els0n 阅读(196) 评论(0) 推荐(0) 编辑

摘要：承接上篇pyspark，这里再给一个我写的scala的例子。这个的目的是从埋点事件里统计需要的几个事件并分区域累计，kafka stream实时计算要说一下，版本特别重要，一个是spark版本（<2, 2.0, >2.0），一个是scala版本（主要是<2.11和2.11），注意匹配 pom.xm 阅读全文

posted @ 2017-10-09 12:30 Els0n 阅读(506) 评论(0) 推荐(0) 编辑

python spark example

摘要：这是年初写的一个job，用于对api非法访问（大量403）进行统计，并有其他后续手段。写的比较通俗易懂，做个sample记录下数据源是kafka stream，实时计算。规则是mysql配置的，简单说就是1分钟内超过多少次403就记录下来 python写spark需要在spark服务器上用pysp 阅读全文

posted @ 2017-10-09 11:59 Els0n 阅读(1443) 评论(0) 推荐(0) 编辑

Els0n

公告