摘要:
以下纯属个人意见 spark作为一种实时或历史数据计算方案,有如下几个特点: 当然也有缺点: 写spark job的原则: 阅读全文
摘要:
承接上篇pyspark,这里再给一个我写的scala的例子。这个的目的是从埋点事件里统计需要的几个事件并分区域累计,kafka stream实时计算 要说一下,版本特别重要,一个是spark版本(<2, 2.0, >2.0),一个是scala版本(主要是<2.11和2.11),注意匹配 pom.xm 阅读全文
摘要:
这是年初写的一个job,用于对api非法访问(大量403)进行统计,并有其他后续手段。写的比较通俗易懂,做个sample记录下 数据源是kafka stream,实时计算。规则是mysql配置的,简单说就是1分钟内超过多少次403就记录下来 python写spark需要在spark服务器上用pysp 阅读全文