data analysis - 随笔分类 - Els0n

搭建hbase cluster

摘要：借助于hdfs（具体可参考搭建hadoop），再搭建hbase就十分方便 hbase需要hdfs，zookeeper。所以自建一个zk server 环境： master：主机名/ip都是master d1-d3：主机名/ip分别是d1-d3，统称为ds zk在d1上以下操作均在master上完阅读全文

posted @ 2017-12-19 15:53 Els0n 阅读(623) 评论(0) 推荐(0) 编辑

搭建hadoop cluster

摘要：准备4台机器，一台做namenode和jobtracker，假设它主机名和ip都是master。三台机器做datanode，主机名和ip分别是d1-d3，统称为ds。网络互通。首先准备ssh。因为hdfs是分布式文件系统，并且node之间会有各种操作，所以需要打通ssh。方法是在所有机器上生成ke 阅读全文

posted @ 2017-12-19 15:25 Els0n 阅读(1401) 评论(0) 推荐(0) 编辑

spark使用总结

摘要：以下纯属个人意见 spark作为一种实时或历史数据计算方案，有如下几个特点：当然也有缺点：写spark job的原则：阅读全文

posted @ 2017-10-09 14:30 Els0n 阅读(196) 评论(0) 推荐(0) 编辑

scala spark and dataframe example

摘要：承接上篇pyspark，这里再给一个我写的scala的例子。这个的目的是从埋点事件里统计需要的几个事件并分区域累计，kafka stream实时计算要说一下，版本特别重要，一个是spark版本（<2, 2.0, >2.0），一个是scala版本（主要是<2.11和2.11），注意匹配 pom.xm 阅读全文

posted @ 2017-10-09 12:30 Els0n 阅读(506) 评论(0) 推荐(0) 编辑

python spark example

摘要：这是年初写的一个job，用于对api非法访问（大量403）进行统计，并有其他后续手段。写的比较通俗易懂，做个sample记录下数据源是kafka stream，实时计算。规则是mysql配置的，简单说就是1分钟内超过多少次403就记录下来 python写spark需要在spark服务器上用pysp 阅读全文

posted @ 2017-10-09 11:59 Els0n 阅读(1443) 评论(0) 推荐(0) 编辑

aws redshift load data兼容无效字符

摘要：redshift默认utf8编码。但有时会遇到无法解码的invalid char，报错停下来。在数据侧的解决方案是加上ACCEPTINVCHARS选项这样会把无效字符替换为?，如"hell?o"而不报错阅读全文

posted @ 2017-09-26 11:05 Els0n 阅读(333) 评论(0) 推荐(0) 编辑

按权重多维度排序，熵对结果的影响

摘要：昨天做数据分析遇到个有趣的问题。下面是我把实际问题虚构下的场景：我们是古代农场主，有一群奴隶给我们种地。我们想统计出表现较好的奴隶并给他们自由。要从2个方面考量，劳动时间和劳动产量，并且希望劳动产量更重要一些。原来的统计方式是： 0.3和0.7是权重。但这样会有一个问题，就是熵的影响。因为时间阅读全文

posted @ 2017-03-09 12:18 Els0n 阅读(1177) 评论(0) 推荐(0) 编辑

Els0n

随笔分类 - data analysis

公告